Descargar

Bioestadistica (página 2)

Enviado por Karina Jaramillo


Partes: 1, 2, 3

Conceptos básicos

Cuando coloquialmente se habla de estadística, se suele pensar en una relación de datos numéricos presentada de forma ordenada y sistemática. Esta idea es la consecuencia del concepto popular que existe sobre el término y que cada vez está más extendido debido a la influencia de nuestro entorno, ya que hoy día es casi imposible que cualquier medio de difusión, periódico, radio, televisión, etc. no nos aborde diariamente con cualquier tipo de información estadística sobre accidentes de tráfico, índices de crecimiento de población, turismo, tendencias políticas, etc.

Sólo cuando nos adentramos en un mundo más específico como es el campo de la investigación de las Ciencias Sociales: Medicina, Biología, Psicología … empezamos a percibir que la Estadística no sólo es algo más, sino que se convierte en la única herramienta que, hoy por hoy, permite dar luz y obtener resultados, y por tanto beneficios, en cualquier tipo de estudio, cuyos movimientos y relaciones, por su variabilidad intrínseca, no puedan ser abordadas desde la perspectiva de las leyes determistas. Podríamos, desde un punto de vista más amplio, definir la estadística como la ciencia que estudia cómo debe emplearse la información y cómo dar una guía de acción en situaciones prácticas que entrañan incertidumbre.

La Estadística se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones.

Podríamos por tanto clasificar la Estadística en descriptiva, cuando los resultados del análisis no pretenden ir más allá del conjunto de datos, e inferencial cuando el objetivo del estudio es derivar las conclusiones obtenidas a un conjunto de datos más amplio. (8)

Estadística descriptiva: Describe, analiza y representa un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos.

Estadística inferencial: Apoyándose en el cálculo de probabilidades y a partir de datos muestrales, efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor de datos.

edu.red

  • 6. CANTÚ, P. El valor de la Estadística para la Salud Pública. Monterrey, México. Facultad de Salud Pública y Nutrición, Universidad Autónoma de Nuevo León. Centro de Ginecología y Obstetricia. Revista de Salud Pública y nutrición. Vol 4 No.1 Enero-Marzo 2003

  • 7. Ibid. CANTU. Pag 2

ELEMENTOS. POBLACIÓN. CARACTERES

Establecemos a continuación algunas definiciones de conceptos básicos y fundamentales básicas como son: elemento, población, muestra, caracteres, variables, etc.

Individuos o elementos: personas u objetos que contienen cierta información que se desea estudiar. (9)

Población: Es cualquier conjunto de individuos o elementos que tienen una o más características comunes. Las características comunes no son sólo físicas, pueden ser espaciales o temporales. Ejemplos: estudiantes matriculados en el primer semestre del 2010 (característica temporal); estudiantes de la escuela de medicina (característica espacial).

La estadística matemática define una población como el conjunto de todos los valores que puede tomar una variable, en este caso se hablaría de población de pesos, etcétera, lo que pasa es que desde el punto de vista del investigador, se define como el conjunto de individuos poseedores de la característica.(10)

Muestra: Es cualquier subconjunto de elementos seleccionado de una población, lo ideal es que sea un subconjunto representativo de toda la población, o sea que refleje las características esenciales de la misma, de manera que se puedan realizar generalizaciones sobre la población.Las razones para trabajar con muestras son: ahorro de tiempo, ahorro de dinero, facilidades operativas y conservación de la población.

Parámetro: función definida sobre los valores numéricos de características medibles de una población. Es una medida que caracteriza a una población, por lo cual se necesitaría tener acceso a todos los elementos de la población para su cálculo. Se representa por medio de letras griegas.

Estadístico: función definida sobre los valores numéricos de una muestra. Es cualquier medida de resumen calculada a partir de los datos de la muestra. Sirve como estimador del respectivo parámetro poblacional. Se representa por medio de letras latinas. (11, 12)

En relación al tamaño de la población, esta puede ser:

Finita, como es el caso del número de personas que llegan al servicio de urgencia de un hospital en un día;

Infinita, si por ejemplo estudiamos el mecanismo aleatorio que describe la secuencia de caras y cruces obtenida en el lanzamiento repetido de una moneda al aire.

Caracteres: propiedades, rasgos o cualidades de los elementos de la población. Estos caracteres pueden dividirse en cualitativos y cuantitativos.

Modalidades: diferentes situaciones posibles de un carácter. Las modalidades deben ser a la vez exhaustivas y mutuamente excluyentes —cada elemento posee una y solo una de las modalidades posibles.

Clases: conjunto de una o más modalidades en el que se verifica que cada modalidad pertenece a una y solo una de las clases. (13)

edu.red

  • 8. Opcit. RIUS. Pag 14

  • 9. Ibid. RIUS. Pag 15

  • 10. RUEDA, J. Bioestadistica I. Medellin, Colombia. Universidad Nacional de Colombia. Departamento de Ciencias Agronómicas. 2006. Pag 3

  • 11. Opcit RIUS. Pag 15

  • 12. Opcit. RUEDA. Pag 3

ORGANIZACIÓN DE LOS DATOS

Variables estadísticas

Cuando hablemos de variable haremos referencia a un símbolo (X,Y,A,B,. . . ) que puede tomar cualquier modalidad (valor) de un conjunto determinado, que llamaremos dominio de la variable o rango. En función del tipo de dominio, las variables las clasificamos del siguiente modo:

Variables cualitativas, si recogen alguna cualidad no numérica del individuo. Se llaman dicotómicas si presentan solamente dos posibilidades y politómicas si presentan varias posibilidades (ordenables o no). Los valores de este tipo de variables suelen registrarse con códigos numéricos, que no indican cantidad, sino un convenio, como por ejemplo 1 = Varón, 2 = Mujer. (14)

Variables cuasicuantitativas u ordinales son las que, aunque sus modalidades son de tipo nominal, es posible establecer un orden entre ellas. Por ejemplo, si estudiamos el grado de recuperación de un paciente al aplicarle un tratamiento, podemos tener como modalidades:

Grado de recuperación: Nada, Poco, Moderado, Bueno, Muy Bueno.

A veces se representan este tipo de variables en escalas numéricas, por ejemplo, puntuar el dolor en una escala de 1 a 5. Debemos evitar sin embargo realizar operaciones algebraicas con estas cantidades. ¡Un dolor de intensidad 4 no duele el doble que otro de intensidad 2!

Variables cuantitativas o numéricas son las que tienen por modalidades cantidades numéricas con las que podemos hacer operaciones aritméticas. Dentro de este tipo de variables podemos distinguir dos grupos:

Discretas, cuando no admiten siempre una modalidad intermedia entre dos cualquiera de sus modalidades. Un ejemplo es el número de hijos en una población de familias:

Numero de hijos posibles: 0, 1, 2, 3, 4, 5, . . .

Continuas, cuando admiten una modalidad intermedia entre dos cualesquiera de sus modalidades, v.g. el peso X de un niño al nacer. (15)

Ocurre a veces que una variable cuantitativa continua por naturaleza, aparece como discreta. Este es el caso en que hay limitaciones en lo que concierne a la precisión del aparato de medida de esa variable, v.g. si medimos la altura en metros de personas con una regla que ofrece dos decimales de precisión, podemos obtener alturas medidas en cm: 1.50, 1.51, 1.52, 1.53,. . .

En realidad lo que ocurre es que con cada una de esas mediciones expresamos que el verdadero valor de la misma se encuentra en un intervalo de radio 0,005. Por tanto cada una de las observaciones de X representa más bien un intervalo que un valor concreto.

Tal como hemos citado anteriormente, las modalidades son las diferentes situaciones posibles que puede presentar la variable. A veces estas son muy numerosas (p. ej. cuando una variable es continua) y conviene reducir su numero, agrupándolas en una cantidad inferior de clases. Estas clases deben ser construidas, tal como hemos citado anteriormente, de modo que sean exhaustivas y excluyentes, es decir, cada modalidad debe pertenecer a una y solo una de las clases. (16)

edu.red

  • 1. Opcit. RIUS. Pag 16

  • 2. PRIETO, L. & HERRANZ, I. Bioestadística. Sin dificultades matemáticas. Cataluña, España. Ed. Díaz de Santos S. A., Ediciones. 2010. Pag 24

Tablas estadísticas

Consideremos una población estadística de n individuos, descrita según un carácter o variable C cuyas modalidades han sido agrupadas en un numero k de clases, que denotamos mediante c1 , c2, . . . , ck. Para cada una de las clases ci, i = 1, . . . , k, introducimos las siguientes magnitudes:

Frecuencia absoluta de la clase ci es el número ni, de observaciones que presentan una modalidad perteneciente a esa clase.

Frecuencia relativa de la clase ci es el cociente fi, entre las frecuencias absolutas de dicha clase y el número total de observaciones, es decir

edu.red

Obsérvese que fi es el tanto por uno de observaciones que están en la clase ci Multiplicado por 100% representa el porcentaje de la población que comprende esa clase. (17)

Por ejemplo:

Las frecuencias relativas, FR, relacionan el tamaño de una parte con el tamaño total de un colectivo. Si decimos que en Oviedo hay 4 000 obesos y en Madrid hay 16 000, es claro que en la capital hay muchos más casos que en la de Asturias

Pero la frecuencia relativa, FR, de ese problema es mayor en Oviedo, ya que entre los 200 000 ovetenses los obesos son 4 000 / 200 000 = 2 / 100 = 0.02, es decir, dos por cien o veinte por mil. Entre los 4 millones de habitantes de Madrid los obesos son 16 000 / 4 000 0000 = 16 / 4 000 = 0.004, es decir, 4 cada mil. La tabla siguiente resume estos datos:

edu.red

Fuente: PRIETO, L. & HERRANZ, I. Bioestadística. Sin dificultades matemáticas. Cataluña, España. Ed. Díaz de Santos S. A., Ediciones. 2010. Pag 24

La FR se puede dar como proporción (por ejemplo, 0.02) o como porcentaje (2%). Pero si son FR muy bajas es más útil darlas como tanto por mil o por diez mil u otra cantidad pertinente. Por ejemplo, si en Madrid hay 80 hemofílicos, la frecuencia relativa es "80 entre 4 millones", es decir, 80 / 4 000 000 = 0.00002 ó 0.002%. Pero esa cifra se entiende mejor expresándola como "2 por cien mil" ó "20 por millón".

El porcentaje se calcula multiplicando la proporción por 100, es decir, corriendo la coma dos lugares a la derecha. Si de un total de 80 personas 32 son enfermos, dividiendo 32 por 80 obtenemos la proporción de enfermos, que multiplicada por 100 nos da el porcentaje:

Proporción: 32 / 80 = 0.40 , Porcentaje: 0.40 x 100 = 40%

Tanto en Estadística Descriptiva como en la Inferencial se usa constantemente las Frecuencias Relativas. La mayoría de las veces se las refiere como "FR". (18)

Frecuencia absoluta acumulada Ni, se calcula sobre variables cuantitativas o cuasicuantitativas, y es el número de elementos de la población cuya modalidad es inferior o equivalente a la modalidad ci:

edu.red

Frecuencia relativa acumulada, Fi, se calcula sobre variables cuantitativas o cuasicuantitativas, siendo el tanto por uno de los elementos de la población que están en alguna de las clases y que presentan una modalidad inferior o igual a la ci, es decir: (19)

edu.red

Si la variable en estudio es cuantitativa con pocos valores, su comportamiento se resume también dando su DF de la misma forma que con las cualitativas.

Con variables cuantitativas podemos, además, calcular las llamadas Frecuencias Acumuladas, que indican la cantidad o FR de individuos con valor igual o menor que uno dado. Por ejemplo:

edu.red

  • 1. Opcit. RIUS. Pag 17

  • 2. Ibid. RIUS. Pag 18

  • 3. Ibid. RIUS. Pag 19

  • 4. Opcit. PRIETO & HERRANZ. Pag 25

  • 5. Opcit. RIUS. Pag 19

edu.red

El 25% (20+5) tiene una caries o menos, el 50% (25+25) tiene 2 caries o menos,… (20)

Llamaremos distribución de frecuencias al conjunto de clases junto a las frecuencias correspondientes a cada una de ellas. (21) Una tabla estadística sirve para presentar de forma ordenada las distribuciones de frecuencias.

Su forma general es la siguiente:

edu.red

Fuente: RÍUS. F. et al. Bioestadística: Métodos y Aplicaciones. Málaga, España. Facultad de Ciencias. Universidad de Málaga. 2004. Pag 20

El comportamiento de una variable cualitativa en un grupo de individuos se resume dando su Distribución de Frecuencias, DF, que consiste en anotar la cantidad de individuos que tienen cada valor de la variable. Por ejemplo, si de cada individuo se recoge el tipo de dieta que sigue (hay tres posibilidades) la columna del medio de la siguiente tabla da la frecuencia absoluta de cada dieta:

edu.red

De los 200 individuos estudiados, 68 siguen dieta rica en proteínas, 86 dieta rica en lípidos y 46 dieta rica en hidratos. Estas cantidades forman la DF Absolutas (número de individuos en cada una de las categorías).

edu.red

  • 6. Opcit. PRIETA & HERRANZ. Pag 26

  • 7. Opcit. RIUS. Pag 19

La DF Relativas indica la FR de individuos para cada valor de la variable.

En nuestro ejemplo 68 / 200 = 0.34 o 34% sigue dieta rica en proteínas, 43% en lípidos y 23% en hidratos. (22)

Si la variable en estudio es cuantitativa discreta con muchos valores o continua se pueden hacer intervalos y contar el número de individuos en cada uno para hacer la correspondiente DF. Los intervalos deben cubrir todo el rango de posibles valores y no solaparse. No hay razones matemáticas ni biológicas para determinar la anchura de los intervalos. El investigador agrupa los datos como sea más útil a su estudio. Una misma variable puede ser agrupada con distintos criterios en distintos momentos. Por ejemplo, con la edad pueden formarse dos grandes grupos, niños y adultos. Y en otro momento pueden agruparse como niños, jóvenes, maduros y viejos, estableciendo los puntos de corte pertinentes. O pueden hacerse intervalos por decenios: de 0 a 9, de 10 a 19… de 90 a 99.

También se pueden representar las frecuencias absolutas y/o relativas de cada intervalo en diagramas de barras o sectores, y las frecuencias acumuladas en diagramas barras y de líneas.

La tabla que sigue da la DF de la edad de 200 individuos:

edu.red

Fuente: RÍUS. F. et al. Bioestadística: Métodos y Aplicaciones. Málaga, España. Facultad de Ciencias. Universidad de Málaga. 2004. Pag 27

La DF acumulada —columna a la derecha— dice que el 15% de los individuos tiene 29 o menos años, el 55% tiene 34 o menos y el 85% tiene menos de 40.

Muchos investigadores tienden a tabular las variables continuas acordando una partición en intervalos y registrando para cada individuo el intervalo al que pertenece. Ello supone una notable pérdida de información que debe evitarse. Si, por ejemplo, la edad se sustituye por la década a la que pertenece, un paciente de 41 años es indistinguible de uno de 49, lo que disminuiría la posibilidad de detectar relaciones de interés. Por ello lo razonable es tabular los valores originales y en la fase de análisis agrupar por los intervalos que interesan en cada momento. (23)

edu.red

  • 1. Opcit. PRIETO & HERRANZ. Pag 26

  • 2. Ibid. PRIETO & HERRANZ. Pag 27

REPRESENTACIONES GRAFICAS

Hemos visto que la tabla estadística resume los datos que disponemos de una población, de forma que ´esta se puede analizar de una manera más sistemática y resumida. Para darnos cuenta de un sólo vistazo de las características de la población resulta aún más esclarecedor el uso de gráficos y diagramas.

Gráficos para variables cualitativas

Los gráficos más usuales para representar variables de tipo nominal son los siguientes:

Diagramas de barras: Representamos en el eje de ordenadas las modalidades y en abscisas las frecuencias absolutas o bien, las frecuencias relativas. Si, mediante el grafico, se intenta comparar varias poblaciones entre sí, existen otras modalidades. Cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso podrían resultar engañosas. (Metodos 22)

edu.red

Fuente: RÍUS. F. et al. Bioestadística: Métodos y Aplicaciones. Málaga, España. Facultad de Ciencias. Universidad de Málaga. 2004. Pag. 22

Diagramas de barras para comparar una variable cualitativa en diferentes poblaciones. Se ha de tener en cuenta que la altura de cada barra es proporcional al número de observaciones (frecuencias relativas).

edu.red

Fuente: RÍUS. F. et al. Bioestadística: Métodos y Aplicaciones. Málaga, España. Facultad de Ciencias. Universidad de Málaga. 2004. Pag. 23

edu.red

22. Opcit. RIUS. Pag 22

Diagramas de sectores (también llamados pasteles). Se divide un círculo en tantas porciones como clases existan, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa.

edu.red

Fuente: RÍUS. F. et al. Bioestadística: Métodos y Aplicaciones. Málaga, España. Facultad de Ciencias. Universidad de Málaga. 2004. Pag. 24

El arco de cada porción se calcula usando la regla de tres:

edu.red

Como en la situación anterior, puede interesar comparar dos poblaciones.

En este caso también es aconsejable el uso de las frecuencias relativas (porcentajes) de ambas sobre gráficos como los anteriores.

Otra posibilidad es comparar las 2 poblaciones usando para cada una de ellas un diagrama semicircular. Sean n1= n2 los tamaños respectivos de las 2 poblaciones. La población más pequeña se representa con un semicírculo de radio r1 y la mayor con otro de radio r2. (23)

La relación existente entre los radios, es la que se obtiene de suponer que la relación entre las áreas de las circunferencias es igual a la de los tamaños de las poblaciones respectivas, es decir:

edu.red

edu.red

Fuente: RÍUS. F. et al. Bioestadística: Métodos y Aplicaciones. Málaga, España. Facultad de Ciencias. Universidad de Málaga. 2004. Pag. 25

edu.red

  • 23. Opcit. RIUS. Pag 24

Pictogramas Expresan con dibujos alusivo al tema de estudio las frecuencias de las modalidades de la variable. Estos gráficos se hacen representado a diferentes escalas un mismo dibujo.

El escalamiento de los dibujos debe ser tal que el área de cada uno de ellos sea proporcional a la frecuencia de la modalidad que representa. (24)

Este tipo de gráficos suele usarse en los medios de comunicación, para que sean comprendidos por el público no especializado, sin que sea necesaria una explicación compleja.

Cantidad de basura recogida en un fin de semana

edu.red

Fuente: RÍUS. F. et al. Bioestadística: Métodos y Aplicaciones. Málaga, España. Facultad de Ciencias. Universidad de Málaga. 2004. Pag. 26

Es un error hacer la representación con una escala tal que el perímetro del dibujo sea proporcional a la frecuencia, ya que a frecuencia doble, correspondería un dibujo de área cuádruple, lo que da un efecto visual engañoso.

Gráficos para variables cuantitativas

Para las variables cuantitativas, consideraremos dos tipos de gráficos, en función de que para realizarlos se usen las frecuencias (absolutas o relativas) o las frecuencias acumuladas:

Diagramas diferenciales: Son aquellos en los que se representan frecuencias absolutas o relativas. En ellos se representa el número o porcentaje de elementos que presenta una modalidad dada.

Diagramas integrales: Son aquellos en los que se representan el número de elementos que presentan una modalidad inferior o igual a una dada.

Se realizan a partir de las frecuencias acumuladas, lo que da lugar a gráficos crecientes, y es obvio que este tipo de gráficos no tiene sentido para variables cualitativas.

Según hemos visto existen dos tipos de variables cuantitativas: discretas y continuas.

Vemos a continuación las diferentes representaciones gráficas que pueden realizarse para cada una de ellas así como los nombres específicos que reciben. (Métodos 26)

edu.red

  • 24. Opcit. RIUS Pag 25

  • 25. Ibid. RIUS. Pag 26

Gráficos para variables discretas

Cuando representamos una variable discreta, usamos el diagrama de barras cuando pretendemos hacer una grafica diferencial. Las barras deben ser estrechas para representar el que los valores que toma la variable son discretos.

El diagrama integral o acumulado tiene, por la naturaleza de la variable, forma de escalera.

edu.red

Fuente: RÍUS. F. et al. Bioestadística: Métodos y Aplicaciones. Málaga, España. Facultad de Ciencias. Universidad de Málaga. 2004. Pag. 28

Diagrama diferencial (barras) e integral para una variable discreta.

Obsérvese que el diagrama integral (creciente) contabiliza el número de observaciones de la variable inferiores o iguales a cada punto del eje de abscisas. (26)

Gráficos para variables continuas

Cuando las variables son continuas, utilizamos como diagramas diferenciales los histogramas y los polígonos de frecuencias.

Un histograma se construye a partir de la tabla estadística, representando sobre cada intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos.

edu.red

Fuente: RÍUS. F. et al. Bioestadística: Métodos y Aplicaciones. Málaga, España. Facultad de Ciencias. Universidad de Málaga. 2004. Pag. 30

edu.red

  • 26. Opcit. RIUS. Pag 28

El polígono de frecuencias se construye fácilmente si tenemos representado previamente el histograma, ya que consiste en unir mediante líneas rectas los puntos del histograma que corresponden a las marcas de clase.

Para representar el polígono de frecuencias en el primer y ´ultimo intervalo, suponemos que adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula, y se unen por una línea recta los puntos del histograma que corresponden a sus marcas de clase.

Obsérvese que de este modo, el polígono de frecuencias tiene en común con el histograma el que las áreas de las gráficas sobre un intervalo son idénticas.

edu.red

Fuente: RÍUS. F. et al. Bioestadística: Métodos y Aplicaciones. Málaga, España. Facultad de Ciencias. Universidad de Málaga. 2004. Pag. 31

El diagrama integral para una variable continua se denomina también polígono de frecuencias acumulado, y se obtiene como la poligonal definida en abscisas a partir de los extremos de los intervalos en los que hemos organizado la tabla de la variable, y en ordenadas por alturas que son proporcionales a las frecuencias acumuladas.

Dicho de otro modo, el polígono de frecuencias absolutas es una primitiva del histograma. (Métodos 30)

edu.red

Fuente: RÍUS. F. et al. Bioestadística: Métodos y Aplicaciones. Málaga, España. Facultad de Ciencias. Universidad de Málaga. 2004. Pag. 31

Diagrama de dispersión: La representación en un gráfico los pares de valores de dos variables suministra información a cerca de posibles relaciones entre las ellas, con una simple inspección a la nube de puntos.

edu.red

  • 27. Opcit. Rius 30

edu.red

Fuente: RUEDA, J. Bioestadística I. Medellin, Colombia. Universidad Nacional de Colombia. Departamento de Ciencias Agronómicas. 2006. Pag 16

Diagrama de cajas.

Se construyen usando la mediana y los cuartiles. La caja tiene un par de líneas que se prolongan a 1,5 veces el rango intercuartílico (1.5*{Q3 – Q1}). La caja la constituyen tres líneas, la primera está a la altura del cuartil uno (Q1), la segunda es la mediana y la tercera el cuartil tres (Q3). (Agosto 17)

edu.red

Fuente: RUEDA, J. Bioestadística I. Medellin, Colombia. Universidad Nacional de Colombia. Departamento de Ciencias Agronómicas. 2006. Pag 17

En resumen:

Tipo de Variable

Diagrama

V. Cualitativa

Barras, sectores, pictogramas

V. Discreta

Diferencial (Barras)

Integral (En escalera)

V. Continua

Diferencial (Histograma, polígono de frecuencias)

Integral (Diagramas acumulados)

Fuente: RÍUS. F. et al. Bioestadística: Métodos y Aplicaciones. Málaga, España. Facultad de Ciencias. Universidad de Málaga. 2004. Pag. 35

Medidas descriptivas

Tras la elaboración de la tabla y su representación gráfica, en la mayoría de las ocasiones resulta más eficaz "condensar" dicha información en algunos números que la expresen de forma clara y concisa.

Los fenómenos biológicos no suelen ser constantes, por lo que será necesario que junto a una medida que indique el valor alrededor del cual se agrupan los datos, se asocie una medida que haga referencia a la variabilidad que refleje dicha fluctuación.

Por tanto el siguiente paso y objeto de este capítulo consistirá en definir algunos tipos de medidas (estadísticos o parámetros) que los sintetizan aún más.

Es decir, dado un grupo de datos organizados en una distribución de frecuencias (o bien una serie de observaciones sin ordenar), pretendemos describirlos mediante dos o tres cantidades sintéticas.

En este sentido pueden examinarse varias características, siendo las más comunes: (29)

  • La tendencia central de los datos;

  • La dispersión o variación con respecto a este centro;

  • Los datos que ocupan ciertas posiciones.

  • La simetría de los datos.

  • La forma en la que los datos se agrupan

edu.red

Fuente: RÍUS. F. et al. Bioestadística: Métodos y Aplicaciones. Málaga, España. Facultad de Ciencias. Universidad de Málaga. 2004. Pag. 40

edu.red

  • 23. Opcit. RUEDA. Pag 17

ESTADÍSTICOS DE TENDENCIA CENTRAL

Las tres medidas más usuales de tendencia central son:

  • la media,

  • la mediana,

  • la moda.

En ciertas ocasiones estos tres estadísticos suelen coincidir, aunque generalmente no es así. Cada uno de ellos presenta ventajas e inconvenientes que precisaremos más adelante. En primer lugar vamos a definir los conceptos anteriores. (30)

edu.red

  • 24. Opcit. RIUS. Pag 39

  • 25. Ibid. RIUS. Pag 41

La Media

Es la suma de los valores dividido para el numero de valores. Es la más famosa de las medidas de tendencia central y se define como el promedio aritmético de todos los datos. Podemos definir la media muestral (estadístico) y la media poblacional (parámetro). Si la media pertenece a una población se representa con la letra griega &µ, si pertenece a una muestra con el símbolo de la variable con una barra encima. (31, 32)

edu.red

Por ejemplo consideremos los siguientes datos encontrados en una investigación: 12 12 13 11 11 11 13 12 14 12 13 14 14 11 12 11 13 12 11 10. La media de estos valores es:

(12+12+13+11+11+11+13+12+14+12+13+14+14+11+12+11+13+12+11+10)/20=12.1

Media de Datos Agrupados

Nótese que siguiendo el ejemplo anterior, algunos de los datos se repiten:

edu.red

edu.red

  • 26. SALVARREY, L. Curso de Estadistica Básica. Salto, Uruguay. Universidad de la República. Regional Norte, Sede Salto. 2000. Pag 16

  • 27. Opcit. RUEDA. Pag 4

Algunos inconvenientes de la media

La media presenta inconvenientes en algunas situaciones:

  • Uno de ellos es que es muy sensible a los valores extremos de la variable: ya que todas las observaciones intervienen en el cálculo de la media, la aparición de una observación extrema, hará que la media se desplace en esa dirección. En consecuencia,

  • no es recomendable usar la media como medida central en las distribuciones muy asimétricas;

  • Si consideramos una variable discreta, por ejemplo, el número de hijos en las familias el valor de la media puede no pertenecer al conjunto de valores de la variable; Por ejemplo x = 1, 2 hijos. (34)

La Mediana

Es el valor central de un conjunto de datos ordenados, se dice también que es aquel valor que divide el conjunto de datos exactamente por la mitad. La mediana es el valor de la variable que divide la distribución de tal modo que la mitad de los valores son iguales o menores que ella y la otra mitad son iguales o mayores. Si los datos no se repiten y no están agrupados, para calcular la mediana basta con ordenarlos y contarlos, el que ocupe el lugar del medio es la mediana. Si hay un número par, muchos definen la mediana como el promedio de los dos valores intermedios. (35)

Para el siguiente conjunto de datos:

{2, 4, 5, 6, 8} la mediana es 5

¿Y para el siguiente conjunto de datos?

2, 4, 5, 6, 20 la mediana es 5

Si se tiene un conjunto de datos par: {2, 4, 5, 6} ¿qué hacemos? La solución es calcular la media de los dos valores centrales. Existen dos fórmulas que facilitan el cálculo de la mediana cuando se tienen muchos datos, pero para ver las fórmulas, primero debemos definir que es un "Estadístico de Orden". (36)

Estadístico de Orden. Se define el estadístico de orden i-ésimo como el valor que toma la observación i-ésima, después de ordenar todos los datos, así:

X(1) es el estadístico de orden 1 y correspondería al menor valor de todos.

X(2) es el estadístico de orden 2 y correspondería al segundo menor valor.

-X(n) es el estadístico de orden n y correspondería al mayor valor.

Al calcular la mediana de un conjunto de datos siempre se estará en una de dos situaciones: el conjunto de datos es impar o el conjunto de datos es par.

Si el conjunto es impar, Me = X (n+1/2); es decir, el estadístico de orden

(n+1)/2

edu.red

es decir, la media aritmética de los dos estadísticos de orden que aparecen en el numerador.

Nota: "n" es el número de datos evaluados. (37)

edu.red

  • 23. Opcit. SALVARREY. Pag 16

  • 24. Opcit. RIUS. Pag 42

  • 25. Opcit. SALVARREY. Pag 18

  • 26. Opcit. RUEDA. Pag 4

Propiedades de la mediana

Entre las propiedades de la mediana, vamos a destacar las siguientes:

  • Como medida descriptiva, tiene la ventaja de no estar afectada por las observaciones extremas, ya que no depende de los valores que toma la variable, sino del orden de las mismas. Por ello es adecuado su uso en distribuciones asimétricas.

  • Es de cálculo rápido y de interpretación sencilla.

  • A diferencia de la media, la mediana de una variable discreta es siempre un valor de la variable que estudiamos (ej. La mediana de una variable número de hijos toma siempre valores enteros). (38)

Moda.

El significado estadístico de la palabra moda es similar al que le damos en nuestra sociedad, ¿qué es moda? Lo que más se usa, entonces la moda es simplemente el valor que más se repite, ejemplo: en el siguiente conjunto de datos la moda sería 5:

{2, 5, 5, 5, 6, 7, 8}

En el conjunto de datos: : {3, 5, 6, 3, 4, 3, 5, 8, 5}, ¿cuál es la moda?

Se puede apreciar que hay dos modas: 3 y 5. (el conjunto es bimodal)

Un último conjunto de datos: {2, 4, 6, 8, 9, 3, 5}, ¿cuál es la moda?

Aquí vemos que no hay moda, a partir de estos tres ejemplos se puede observar que la moda puede no existir, ser única o pueden existir múltiples modas (datos multimodales).

Cuando exista, siempre corresponderá con algunos de los valores observados en el conjunto de datos. (39)

Relación entre media, mediana y moda

En el caso de distribuciones unimodales, la mediana está con frecuencia comprendida entre la media y la moda (incluso más cerca de la media).

En distribuciones que presentan cierta inclinación, es más aconsejable el uso de la mediana. Sin embargo en estudios relacionados con propósitos estadísticos y de inferencia suele ser más apta la media. (40)

edu.red

  • 27. Opcit. RUEDA. Pag 5

  • 28. Opcit. RIUS. Pag 44

  • 29. Opcit. RUEDA. Pag 5

  • 30. Opcit. RIUS. Pag 47

Recorrido o Rango

Una medida razonable de la variabilidad podría ser la amplitud, recorrido o rango, que se obtiene restando el valor más bajo de un conjunto de observaciones del valor más alto. (41). Es una medida poco utilizada porque provee de muy poca información, se calcula como la diferencia entre los dos valores extremos del conjunto de datos, por lo tanto simplemente indica la distancia que hay entre el valor menor y el valor mayor. (42)

R: (Valor mayor – Valor menor) = (X(n) – X(1)).

Propiedades del rango

  • Es fácil de calcular y sus unidades son las mismas que las de la variable.

  • No utiliza todas las observaciones (sólo dos de ellas);

  • Se puede ver muy afectada por alguna observación extrema;

  • El rango aumenta con el número de observaciones, o bien se queda igual. En cualquier caso nunca disminuye.

Varianza

La varianza mide la mayor o menor dispersión de los valores de la variable respecto a la media aritmética. Cuanto mayor sea la varianza mayor dispersión existirá y por tanto menor representatividad tendrá la media aritmética.

La varianza se expresa en las mismas unidades que la variable analizada, pero elevadas al cuadrado. (43)

Es la más conocida de las medidas de dispersión y su análisis es la base de todos los métodos de estadística inferencial. Podemos definir la varianza muestral (estadístico) y la varianza poblacional (parámetro). (44, 45)

edu.red

Esta medida es siempre una cantidad positiva. Como sus unidades son las del cuadrado de la variable, es más sencillo usar su raíz cuadrada.

Desviación típica o estándar

La varianza no tiene la misma magnitud que las observaciones (ej. si las observaciones se miden en metros, la varianza lo hace en metros cuadrados. Si queremos que la medida de dispersión sea de la misma dimensionalidad que las observaciones bastará con tomar su raíz cuadrada.

Por ello se define la desviación típica, S, como: (46)

edu.red

Podemos definir la desviación estándar muestral (estadístico) y la desviación estándar poblacional (parámetro).

S = Raíz cuadrada de: S2; Así, es un estadístico.

s = Raíz cuadrada de: s2; Así, es el parámetro.

La desviación estándar sería un valor que está dado en las unidades de medida originales y por lo tanto es fácil de entender. (47)

edu.red

  • 31. Opcit. RIUS. Pag 55

  • 32. Opcit. RUEDA. Pag 8

  • 33. Opcit. RUIZ. Pag 18

  • 34. Opcit. RUEDA. Pag 7

  • 35. NORMAN, G. R., & STREINER, D. L. Biostatistics: The bare essentials. Hamilton: B.C. Decker, 2008. Pag 28

Propiedades de la varianza y desviación estándar

  • Ambas son sensibles a la variación de cada una de las puntuaciones, es decir, si una puntuación cambia, cambia con ella la varianza. La razón es que si miramos su definición, la varianza es función de cada una de las puntuaciones.

  • La desviación típica tiene la propiedad de que en el intervalo

edu.red

se encuentra, al menos, el 75% de las observaciones Incluso si tenemos muchos datos y estos provienen de una distribución normal, podremos llegar al 95 %.

  • No es recomendable el uso de ellas, cuando tampoco lo sea el de la media como medida de tendencia central.

Coeficiente de Variación (CV).

Esta es una medida de dispersión muy utilizada porque es adimensional (no tiene unidades de medida) y por lo tanto es muy útil para comparar la dispersión de dos conjuntos de datos, ya sea que éstos tengan o no, la misma unidad de medida; expresa la desviación estándar como un porcentaje de la media. (48)

edu.red

Al dividir la desviación típica por la media se convierte en un valor excento de unidad de medida. Si comparamos la dispersión en varios conjuntos de observaciones tendrá menor dispersión aquella que tenga menor coeficiente de variación.

El principal inconveniente, es que al ser un coeficiente inversamente proporcional a la media aritmética, cuando está tome valores cercanos a cero, el coeficiente tenderá a infinito. (49)

edu.red

  • 36. Opcit. RIUS. Pag 56

  • 37. Opcit. RUEDA. Pag 7

  • 38. Ibid. RUEDA. Pag 8

  • 39. Opcit. RUIZ. Pag 19

ESTADÍSTICOS DE POSICIÓN

Los estadísticos de posición van a ser valores de la variable caracterizados por superar a cierto porcentaje de observaciones en la población (o muestra). Tenemos fundamentalmente a los percentiles como medidas de posición, y asociados a ellos veremos también los cuantiles, deciles y cuartiles.

Los cuantiles son aquellos valores de la variable, que ordenados de menor a mayor, dividen a la distribución en partes, de tal manera que cada una de ellas contiene el mismo número de frecuencias.

Cuartiles ( Qi )

Son valores de la variable que dividen a la distribución en 4 partes, cada una de las cuales engloba el 25 % de las mismas. Se denotan de la siguiente forma: Q1 es el primer cuartil que deja a su izquierda el 25 % de los datos; Q2 es el segundo cuartil que deja a su izquierda el 50% de los datos, y Q3 es el tercer cuartil que deja a su izquierda el 75% de los datos. (Q2 = Me)

Deciles ( Di )

Son los valores de la variable que dividen a la distribución en las partes iguales, cada una de las cuales engloba el 10 % de los datos. En total habrá 9 deciles. (Q2 = D5 = Me)

Centiles o Percentiles ( Pi )

Son los valores que dividen a la distribución en 100 partes iguales, cada una de las cuales engloba el 1 % de las observaciones. En total habrá 99 percentiles. (Q2 = D5 = Me = P50)

Cálculo de los cuantiles en distribuciones no agrupadas en intervalos

Se calculan a través de la siguiente expresión: rN/q , siendo:

r = el orden del cuantil correspondiente

q = el número de intervalos con iguales frecuencias u observaciones ( q = 4, 10, ó 100 ).

N = número total de observaciones. (50)

MEDIDAS DE FORMA

Estadísticos de Asimetría

Para saber si una distribución de frecuencias es simétrica, hay que precisar con respecto a que. Un buen candidato es la mediana, ya que para variables continuas, divide al histograma de frecuencias en dos partes de igual área.

Podemos basarnos en ella para, de forma natural, decir que una distribución de frecuencias es simétrica si el lado derecho de la gráfica (a partir de la mediana) es la imagen por un espejo del lado izquierdo.

Cuando la variable es discreta, decimos que es simétrica, si lo es con respecto a la media.

Dentro de los tipos de asimetría posible, vamos a destacar los dos fundamentales:

Asimetría positiva: Si las frecuencias más altas se encuentran en el lado izquierdo de la media, mientras que en derecho hay frecuencias más pequeñas (cola).

Asimetría negativa: Cuando la cola esta en el lado izquierdo.

Cuando realizamos un estudio descriptivo es altamente improbable que la distribución de frecuencias sea totalmente simétrica. En la práctica diremos que la distribución de frecuencias es simétrica si lo es de un modo aproximado. Por otro lado, aún observando cuidadosamente la gráfica, podemos no ver claro de qué lado están las frecuencias más altas. Se definen entonces toda una familia de estadísticos que ayuden a interpretar la asimetría, denominados índices de asimetría. (51)

edu.red

  • 23. Opcit. RUIZ. Pag 14

edu.red

Fuente: RÍUS. F. et al. Bioestadística: Métodos y Aplicaciones. Málaga, España. Facultad de Ciencias. Universidad de Málaga. 2004. Pag. 61

El coeficiente de asimetría más preciso es el de Fisher, que se define por:

edu.red

Según sea el valor de g1, diremos que la distribución es asimétrica a derechas o positiva, a izquierdas o negativa, o simétrica, o sea:

  • Si g1 > 0 la distribución será asimétrica positiva o a derechas (desplazada hacia la derecha).

  • Si g1 < 0 la distribución será asimétrica negativa o a izquierdas (desplazada hacia la izquierda).

  • Si g1 = 0 la distribución puede ser simétrica; si la distribución es simétrica, entonces si podremos afirmar que g1 = 0.(52)

edu.red

Modificado de: RUIZ, D. Manual de Estadística. Universidad Pablo de Olavide. Sevilla, España. Editado por eumed.net. 2004. Pag 22, y ROSNER, B. Fundamentals of biostatistics. Belmont, CA: Thomson-Brooks/Cole, 2006. Pag 19

edu.red

  • 23. Opcit. RIUS. Pag 60

Medidas de apuntamiento o curtosis: coeficiente de curtosis de Fisher

Con estas medidas nos estamos refiriendo al grado de apuntamiento que tiene una distribución; Evalúa como es la concentración de los datos alrededor de la media y de las colas; .para determinarlo, emplearemos el coeficiente de curtosis de Fisher. (53)

edu.red

Si g2 > 3 la distribución será leptocúrtica o apuntada

Si g2 = 3 la distribución será mesocúrtica o normal

Si g2 < 3 la distribución será platicúrtica o menos apuntada que lo normal. (54)

edu.red

  • 24. Opcit. RUIZ. Pag 21

  • 25. Ibid. RUIZ. Pag 23

  • 26. Opcit. RUEDA. Pag 10

Distribución Mesocúrtica:

edu.red

Distribución Leptocúrtica:

edu.red

Distribución Platicúrtica:

edu.red55)

Medidas de concentración

Las medidas de concentración tratan de poner de relieve el mayor o menor grado de igualdad en el reparto del total de los valores de la variable, son por tanto indicadores del grado de distribución de la variable.

Para este fin, están concebidos los estudios sobre concentración.

Denominamos concentración a la mayor o menor equidad en el reparto de la suma total de los valores de la variable considerada (renta, salarios, etc.).

Las infinitas posibilidades que pueden adoptar los valores, se encuentran entre los dos extremos:

1.- Concentración máxima, cuando uno solo percibe el total y los demás nada, en este caso, nos encontraremos ante un reparto no equitativo:

x1 = x2 = x3 = ………… = xn-1 = 0 y xn.

2.- Concentración mínima, cuando el conjunto total de valores de la variable esta repartido por igual, en este caso diremos que estamos ante un reparto equitativo

x1 = x2 = x3 = ………… = xn-1 = xn

De las diferentes medidas de concentración que existen nos vamos a centrar en dos:

Indice de Gini, Coeficiente, por tanto será un valor numérico.

Curva de Lorenz, gráfico, por tanto será una representación en ejes coordenados.

edu.red

  • 27. Opcit. RUEDA. Pag 11

Sea una distribución de rentas (xi, ni) de la que formaremos una tabla con las siguientes columnas:

1.- Los productos xi ni, que nos indicarán la renta total percibida por los ni rentistas de renta individual xi. (56)

2.- Las frecuencias absolutas acumuladas Ni .

3.- Los totales acumulados ui que se calculan de la siguiente forma:

u1= x1 n1

u2 = x1 n1 + x2 n2

u3 = x1 n1 + x2 n2 + x3 n3

u4 = x1 n1 + x2 n2 + x3 n3 + x4 n4

un = x1 n1 + x2 n2 + x3 n3 + x4 n4 + …………. + xn nn

Por tanto podemos decir que

edu.red

4.- La columna total de frecuencias acumuladas relativas, que expresaremos en tanto por ciento y que representaremos como pi y que vendrá dada por la siguiente notación

edu.red

5.- La renta total de todos los rentistas que será un y que dada en tanto por ciento, la cual representaremos como qi y que responderá a la siguiente notación:

edu.red

Por tanto ya podemos confeccionar la tabla que será la siguiente:

edu.red

Fuente: RUIZ, D. Manual de Estadística. Universidad Pablo de Olavide. Sevilla, España. Editado por eumed.net. 2004. Pag 24

Como podemos ver la última columna es la diferencia entre las dos penúltimas, esta diferencia seria 0 para la concentración mínima ya que pi = qi y por tanto su diferencia seria cero.

Si esto lo representamos gráficamente obtendremos la curva de concentración o curva de Lorenz .La manera de representarlo será, en el eje de las X, los valores pi en % y en el de las Y los valores de qi en %. Al ser un %, el gráfico siempre será un cuadrado, y la gráfica será una curva que se unirá al cuadrado, por los valores (0,0), y (100,100), y quedará siempre por debajo de la diagonal.

La manera de interpretarla será: cuanto más cerca se sitúe esta curva de la diagonal, menor concentración habrá, o más homogeneidad en la distribución. Cuanto más se acerque a los ejes, por la parte inferior del cuadrado, mayor concentración. (57)

edu.red

  • 23. Opcit. RUIZ. Pag 23

Distribución de concentración mínima

edu.red

Fuente: RUIZ, D. Manual de Estadística. Universidad Pablo de Olavide. Sevilla, España. Editado por eumed.net. 2004. Pag 25

Analíticamente calcularemos el índice de Gini el cual responde a la siguiente ecuación

edu.red

Este índice tomara los valores de IG = 0 cuando pi = qi concentración mínima (poca concentración por encontrarse cerca del 0) y de IG = 1 cuando qi = 0 (58)

Cálculo de probabilidades

Si el único propósito del investigador es describir los resultados de un experimento concreto, los métodos analizados en los capítulos anteriores pueden considerarse suficientes. No obstante, si lo que se pretende es utilizar la información obtenida para extraer conclusiones generales sobre todos aquellos objetos del tipo de los que han sido estudiados, entonces estos métodos constituyen sólo el principio del análisis, y debe recurrirse a métodos de inferencia estadística, los cuales implican el uso inteligente de la teoría de la probabilidad. (59)

En las aplicaciones prácticas es importante poder describir los rasgos principales de una distribución, es decir, caracterizar los resultados del experimento aleatorio mediante unos parámetros. Llegamos así al estudio de las características asociadas a una variable aleatoria introduciendo los conceptos de esperanza y varianza matemática, relacionándolos con los conceptos de media y varianza de una variable estadística.

El cálculo de probabilidades nos suministra las reglas para el estudio de los experimentos aleatorios o de azar, constituyendo la base para la estadística inductiva o inferencial. (60)

Cuando un experimento aleatorio se repite un gran número de veces, los posibles resultados tienden a presentarse un número muy parecido de veces, lo cual indica que la frecuencia de aparición de cada resultado tiende a estabilizarse.

El concepto o idea que generalmente se tiene del término probabilidad es adquirido de forma intuitiva, siendo suficiente para manejarlo en la vida corriente.

Nos interesa ahora la medida numérica de la posibilidad de que ocurra un suceso A cuando se realiza el experimento aleatorio. A esta medida la llamaremos probabilidad del suceso A y la representaremos por p(A).

La probabilidad es una medida sobre la escala 0 a 1 de tal forma que:

• Al suceso imposible le corresponde el valor 0

• Al suceso seguro le corresponde el valor 1

• El resto de sucesos tendrán una probabilidad comprendida entre 0 y 1

El concepto de probabilidad no es único, pues se puede considerar desde distintos puntos de vista:

• El punto de vista objetivo

• Definición clásica o a priori

• Definición frecuentista o a posteriori

• El punto de vista subjetivo (61)

edu.red

  • 23. Opcit RUIZ. Pag 24

  • 24. Ibid. RUIZ. Pag 25

  • 25. Opcit. RIUS. Pag 99

Concepto de probabilidad

Definición a "priori". La probabilidad de un suceso es el número de casos favorables sobre el número de casos totales.

Ejemplo: la probabilidad de caer cara en una moneda es l/2 pues es uno de los dos posibles resultados.

Definición a "posteriori". La probabilidad de un suceso es el límite (si existe) de la frecuencia relativa cuando el tamaño de muestra tiende a infinito.

Ejemplo: la probabilidad de germinar de semillas de una determinada población es 80%.

Esto se sabe porque en una serie de pruebas se obtuvo ese porcentaje de germinación. La idea básica es que el investigador llega a la conclusión de que haciendo pruebas con cantidades cada vez más grandes el porcentaje de germinación que se obtendrá será de 80%.

Enfoque axiomático. Algunos autores objetan que ambas definiciones son criticables. La definición clásica define probabilidad en término de casos equiprobables, es decir de igual probabilidad. O sea que para decir lo que es probabilidad necesitamos ya saber de antemano lo que significa probabilidad. ( La segunda es en realidad una forma de decir que la probabilidad es un parámetro y su estimador (la frecuencia relativa) tiende a é1.

Una alternativa más rigurosa es encarar el concepto de probabilidad con un enfoque axiomático: es un número entre 0 y I que cumple con determinadas propiedades llamadas leyes de la probabilidad'

Ejemplo: ¿Cuál es la probabilidad de nacimiento de un varón al nacer un niño? Si razonamos que hay dos sexos posibles se puede decir que la probabilidad es l/2. No obstante hay ciertos estudios que indican que es más probable que nazca un varón que una niña; algunos autores dicen que la probabilidad de nacer varón es de 0,5 l, otros incluso más alta. Esos estudios se basan en análisis de frecuencias y encontraron que era más frecuente el nacimiento de varones.

En este caso el razonamiento inicial falló debido a que los dos sexos no son "equiprobables". (62)

edu.red

  • 23. Opcit. RIUS. Pag 100

  • 24. Opcit. RUIZ. Pag 85

Definición clásica de probabilidad

edu.red

Para que se pueda aplicar la regla de Laplace es necesario que todos los sucesos elementales sean equiprobables, es decir:

edu.red

La probabilidad verifica las siguientes condiciones:

• La probabilidad de cualquier suceso es siempre un número no negativo entre 0 y 1

edu.red

• La probabilidad del suceso seguro E vale 1

• La probabilidad del suceso imposible es 0

edu.red

• La probabilidad de la unión de varios sucesos incompatibles o excluyentes A1, A1,…, Ar es igual a la suma de probabilidades de cada uno de ellos

edu.red

Esta definición clásica de probabilidad fue una de las primeras que se dieron (1900) y se atribuye a Laplace; también se conoce con el nombre de probabilidad a priori pues, para calcularla, es necesario conocer, antes de realizar el experimento aleatorio, el espacio muestral y el número de resultados o sucesos elementales que entran a formar parte del suceso.

La aplicación de la definición clásica de probabilidad puede presentar dificultades de aplicación cuando el espacio muestral es infinito o cuando los posibles resultados de un experimento no son equiprobables. Ej: En un proceso de fabricación de piezas puede haber algunas defectuosas y si queremos determinar la probabilidad de que una pieza sea defectuosa no podemos utilizar la definición clásica pues necesitaríamos conocer previamente el resultado del proceso de fabricación.

Para resolver estos casos, se hace una extensión de la definición de probabilidad, de manera que se pueda aplicar con menos restricciones, llegando así a la definición frecuentista de probabilidad. (64)

edu.red

  • 23. Opcit. SALVARREY. Pag 30

  • 24. Opcit. RUIZ. Pag 85

Experimentos y sucesos aleatorios

Diremos que un experimento es aleatorio si se verifican las siguientes condiciones:

1. Se puede repetir indefinidamente, siempre en las mismas condiciones;

2. Antes de realizarlo, no se puede predecir el resultado que se va a obtener; (65)

3. El resultado que se obtenga, e, pertenece a un conjunto conocido previamente de resultados posibles. A este conjunto, de resultados posibles, lo denominaremos espacio muestral y lo denotaremos normalmente mediante la letra E. Los elementos del espacio muestral se denominan sucesos elementales.

edu.red

Cualquier subconjunto de E será denominado suceso aleatorio, y se denotar

´a normalmente con las letras A, B,. . .

edu.red66)

edu.red

  • 23. Opcit. RUIZ. Pag 86

  • 24. Opcit. RIUS. Pag 100

Operaciones básicas con sucesos aleatorios

Al ser los sucesos aleatorios nada más que subconjuntos de un conjunto E —espacio muestral—, podemos aplicarles las conocidas operaciones con conjuntos, como son la unión, intersección y diferencia:

Unión:

Dados dos sucesos aleatorios A,B _ E, se denomina suceso unión de A y B al conjunto formado por todos los sucesos elementales que pertenecen a A o bien que pertenecen a B (incluyendo los que están en ambos simultáneamente), es decir

edu.red

Intersección:

Dados dos sucesos aleatorios A,B _ E, se denomina suceso intersección de A y B al conjunto formado por todos los sucesos elementales que pertenecen a A y B a la vez, es decir,

edu.red

Diferencia:

Dados dos sucesos aleatorios A,B _ E, se llama suceso diferencia de A y B, y se representa mediante AB, o bien A – B, al suceso aleatorio formado por todos los sucesos elementales que pertenecen a A, pero no a B:

edu.red

Diferencia simétrica:

Si A,B _ E, se denomina suceso diferencia simétrica de A y B, y se representa mediante A4B, al suceso aleatorio formado por todos los sucesos elementales que pertenecen a A y no a B, y los que están en B y no en A:

edu.red

edu.red

  • 25. Opcit. RIUS. Pag 100

  • 26. Ibid. RIUS. Pag 101

edu.red

(a) AB; (b) AB; (c) A – B; (d) A4B.

Fuente: RÍUS. F. et al. Bioestadística: Métodos y Aplicaciones. Málaga, España. Facultad de Ciencias. Universidad de Málaga. 2004. Pag. 103

Experimentos aleatorios y probabilidad

Se denominan experimentos deterministas aquellos que realizados de una misma forma y con las mismas condiciones iniciales, ofrecen siempre el mismo resultado. Como ejemplo, tenemos que un objeto de cualquier masa partiendo de un estado inicial de reposo, y dejado caer al vacío desde una torre, llega siempre al suelo con la misma velocidad:

edu.red

Cuando en un experimento no se puede predecir el resultado final, hablamos de experimento aleatorio. Este es el caso cuando lanzamos un dado y observamos su resultado. (68)

Noción frecuentista de probabilidad

En los experimentos aleatorios se observa que cuando el numero de experimentos aumenta, las frecuencias relativas con las que ocurre cierto suceso e, fn(e),

edu.red

tiende a converger hacia cierta cantidad que denominamos probabilidad de e. Esta es la noción frecuentista de probabilidad.

edu.red

La definición frecuentista consiste en definir la probabilidad como el límite cuando n tiende a infinito de la proporción o frecuencia relativa del suceso.

Sea un experimento aleatorio cuyo espacio muestral es E

Sea A cualquier suceso perteneciente a E

Si repetimos n veces el experimento en las mismas condiciones, la frecuencia relativa del suceso A será:

edu.red

Cuando el número n de repeticiones se hace muy grande la frecuencia relativa converge hacia un valor que llamaremos probabilidad del suceso A.

edu.red

Es imposible llegar a este límite, ya que no podemos repetir el experimento un número infinito de veces, pero si podemos repetirlo muchas veces y observar como las frecuencias relativas tienden a estabilizarse.

Esta definición frecuentista de la probabilidad se llama también probabilidad a posteriori ya que sólo podemos dar la probabilidad de un suceso después de repetir y observar un gran número de veces el experimento aleatorio correspondiente. Algunos autores las llaman probabilidades teóricas. (ruiz 87)

edu.red

  • 23. Opcit. RIUS. Pag 102

Problemas de la noción o definición frecuentista de probabilidad

La noción frecuentista de probabilidad no puede usarse en la práctica como definición de la probabilidad por que: (métodos 104)

  • se requiere realizar un número infinito de veces un experimento para calcular una probabilidad. Por ejemplo, lanzar infinitas veces un dado para ver que las frecuencias relativas de la aparición de cada cara convergen a 1/6. Esto puede suplirse en la práctica realizando el experimento un número suficientemente elevado de veces, hasta que tengamos la precisión que requieran nuestros cálculos. Sin embargo,

  • los experimentos aleatorios a veces no pueden ser realizados, como es el caso de calcular la probabilidad de morir jugando a la ruleta rusa con un revolver: no es posible (o no se debe) calcular esta probabilidad repitiendo el experimento un número indefinidamente alto de veces para aproximarla mediante la frecuencia relativa). (Métodos 105)

Definición Subjetiva de la Probabilidad

Tanto la definición clásica como la frecuentista se basan en las repeticiones del experimento aleatorio; pero existen muchos experimentos que no se pueden repetir bajo las mismas condiciones y por tanto no puede aplicarse la interpretación objetiva de la probabilidad.

Partes: 1, 2, 3
 Página anterior Volver al principio del trabajoPágina siguiente