Independencia Estadistica

INTRODUCCIÓN

Existe una variedad de procedimiento para el procesamiento y análisis estadístico de datos, una vez recogidos los datos, procesados y convertidos en información valiosa para el estudio que se realiza, pueden utilizarse varias técnicas que permitan sacar el máximo provecho de la información disponible, sin embargo, la utilización de técnicas de Estadística No Parametricas son poco utilizada, a pesar de la potencia y certeza de sus resultados, y que por lo general no se dispone de información suficiente sobre la población de la cual se extrajeron los datos que den soporte la realización de inferencia con base en la muestra observada.

En esta investigación se desarrollan algunas técnicas de análisis estadístico no paramétrico tales como la prueba de independencia, la corrección de Yates en tablas de contingencia de 2×2, las pruebas de homogeneidad y se hace un estudio sobre el análisis de varianza por medio de la tabla ANOVA, analizando la rutina general de este tipo de análisis, para terminar con comentarios sobre la importancia del software en este tipo de análisis.

Historia de la probabilidad.

Jacob Berooulli (1654 – 1705), Abraham de Moivre (1667 – 1754), el reverendo Thomas Bayes (1702 – 1761) y Joseph Lagrange (1736 – 1813) desarrollaron fórmulas y técnicas para el cálculo de la probabilidad. En el siglo XIX, Pierre Simon, marqués de Laplace (1749 – 1827), unificó todas estas primeras ideas y compiló la primera teoróa general de la probabilidad.

La teoría de la probabilidad fue aplicada con éxito en las mesas de juego y, lo que es más importante, en problemas sociales y económicos. La industria de seguros requería un conocimiento preciso acerca de los riesgos de pérdida. Muchos centros de aprendizaje estudiaron la probabilidad como una herramienta para el entendimiento de los fenómenos sociales.

Nuestra necesidad de tratar con total incertidumbre nos lleva a estudiar y utilizar la teoría de la probabilidad. Al organizar la información y considerarla de manera sistemática, seremos capaces de reconocer nuestras suposiciones, comunicar nuestro razonamiento a otras personas y tomar una decisión más sólida.

Conceptos básicos sobre probabilidad.

La probabilidad es la posibilidad de que algo pase. Las probabilidades se expresan como fracciones o como decimales que están entre uno y cero. Tener una probabilidad de cero significa que algo nuca va a suceder; una probabilidad de uno indica que algo va a suceder siempre.

En la teoría de la probabilidad, un evento es uno o más de los posibles resultados de hacer algo.

La actividad que origine uno de dichos eventos se conoce como experimento aleatorio.

Al conjunto de todos los resultados posibles de un experimento se le llama espacio muestral del experimento

.Se dice que dos eventos son mutuamente excluyentes si uno y sólo uno de ellos puede tener lugar a un tiempo.

Cuando en una lista de los posibles eventos que pueden resultar de un experimento se incluyen todos los resultados posibles, se dice que la lista es colectivamente exhaustiva. En una lista colectivamente exhaustiva se presentan todos los resultados posibles.

Distribuciones condicionadas. Caso de independencia estadística

Al poner una restricción o condición a una de las dos variables, tenemos las distribuciones condicionadas.

Se las suele representar como:

X/Y , indica que el valor de X viene condicionado por Y

Y/X indica que el valor de Y viene condicionado por X

Independencia estadística

Se dice que dos variables X e Y son independientes estadísticamente cuando la frecuencia relativa conjunta es igual al producto de las frecuencias relativas marginales en todos los casos, es decir:

Para todo i, j

Si esto no se cumple para todos los valores se dice que hay dependencia estadística.

Covarianza. Caso de independencia

En el estudio conjunto de dos variables, lo que nos interesa principalmente es saber si existe algún tipo de relación entre ellas. Esto se ve gráficamente con el diagrama de dispersión. Veremos ahora una medida descriptiva que sirve para medir o cuantificar esta relación:

Si Sxy >0 hay dependencia directa (positiva), es decir a grandes valores de x corresponden grandes valores de y.

Si Sxy = 0 las variables están incorreladas, es decir no hay relación lineal.

Si Sxy < 0 hay dependencia inversa o negativa, es decir a grandes valores de x corresponden grandes valores de y.

PROPIEDADES DE LA COVARIANZA:

1.- Si a todos los valores de la variable x, les sumamos una constante k y a todos los valores de la variable y les sumamos una constante k’, la covarianza no varía.

2.- Si a todos los valores de una variable x los multiplicamos por una constante k y a todos los valores de la variable y los multiplicamos por una constante k’, su covarianza queda multiplicada por el producto de las constantes.

3.- A partir de las anteriores: si tenemos dos variables x, y con la covarianza Sxy, y transformaciones lineales de las variables de la forma z=ax+b, y t=cy+d, la nueva covarianza se relaciona con la anterior de la forma: Szt=acSxy.

4.- Otra forma de calcular la Covarianza sería: . Será la que utilizaremos en la práctica.

NOTA: El inconveniente de la covarianza, como medida de asociación es su dependencia de las unidades. Habrá que definir una nueva medida, que no está afectada por los cambios en las unidades de medida. Esta medida será el coeficiente de correlación lineal rxy, con la siguiente expresión:

siendo Sx y Sy las desviaciones típicas de x e y. Este coeficiente es adimensional y siempre estará entre –1 y 1.

Si hay relación lineal positiva, rxy>0 y próximo a 1.
Si hay relación lineal negativa rxy<0 y próximo a –1.
Si no hay relación lineal rxy será próximo a 0.

Nota: Cuando las variables x e y son independientes, Sxy =0, y por tanto rxy=0. Es decir, si dos variables son independientes su covarianza vale cero. No podemos asegurar lo mismo en sentido contrario. Si dos variables tienen covarianza cero, no podemos decir que son independientes. Sabemos que linealmente no tienen relación, pero podrían tener otro tipo de relación y no ser independientes.

Ejemplo: A partir de los siguientes datos, vamos a calcular la Covarianza y el coeficiente de correlación:

Altura	175	180	162	157	180	173	171	168	165	165
Peso	80	82	57	63	78	65	66	67	62	58

Los cálculos que necesitamos:

Ahora se puede calcular el coeficiente de correlación lineal rxy y el de determinación lineal R2

que nos indica que las variables están relacionadas.

Ejemplo de Aplicación

Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes resultados:

	Sin depresión	Con depresión
Deportista	38	9	47
No deportista	31	22	53
	69	31	100

L = (38 – 32,43)2/32,43 + (31 – 36,57)2/36,57 + (9 – 14,57)2/14,57 + (22 – 16,43)2/16,43

= 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227

El valor que alcanza el estadístico L es 5,8227. Buscando en la tabla teórica de Chi Cuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite rechazar la hipótesis de independencia de caracteres con un nivel de significación del 5%, admitiendo por tanto que la práctica deportiva disminuye el riesgo de depresión.

CORRECCIÓN DE YATES PARA TABLAS DE CONTINGENCIA DE 2X2

Un caso especial de pruebas de independencia es aquel que emplea una tabla de contingencia de 2×2. Si se utiliza una tabla cuádruple puede aplicarse una fórmula simplificada para calcular el Valor L, por χ2.

Supóngase que las frecuencias observadas en una tabla de contingencia de 2×2 sean a, b, c y d de la siguiente forma:

	A	B	Total
X	a	b	a + b
Y	c	d	c + d
Total	a + c	b + d	n

El valor Xχ2 puede calcularse entonces con la fórmula siguiente:

que tiene (2 – 1)(2 – 1) = 1 grado de libertad

Con frecuencia se aplica la Corrección de Continuidad de Yates, similar a la corrección de continuidad de la aproximación normal a la binomial, para mejorar la aproximación a la probabilidad exacta. El valor χ2 corregido se calcula a partir de la siguiente fórmula:

Ejemplo de Aplicación

En un estudio para determinar si existe relación entre el sexo y el propósito de elegir una carrera técnica se entrevistaron a 120 aspirantes a la universidad. Los resultados se observan en la siguiente tabla de contingencia:

Sexo	Aspira a Carrera Técnica		Total
Sexo	Si	No	Total
Masculino	40	30	70
Femenino	10	40	50
Total	50	50	120

Se aplicará la fórmula para encontrar χ2

χ2 = (120(40×40 – 10×30)2)/70x50x50x70 = 16,56

De la tabla teórica de Chi Cuadrado se tiene que para un grado de libertad el valor de χ2 que separa 0,1% superior es 10,828. Por lo tanto, la hipótesis según la cual existe independencia entre el

sexo y el propósito de elegir una carrera técnica debe ser rechazada.

Si se tiene en cuanta la corrección por continuidad de Yates se obtiene:

χ2 = (120(|40×40 – 10×30| – 0,5(120))2)/70x50x50x70 = 15,06

Que es ligeramente inferior al valor antes obtenido, pero aun así, la hipótesis de independencia debe ser rechazada.

BIBLIOGRAFIA

Análisis estadístico con SPSS, de Magdalena Ferran Aranez, 2001, Editorial Osborne – McGraw-Hill

Análisis Multivariante, de Hair – Anderson – Tatham – Black. 1999, Prentice- Hall

ROSMERY MANCILLA MENDOZA

POST GRADO SALUD PUBLICA UNFV