- Resumen
- Introducción
- Estudio de las dependencias entre variables por medio de los coeficientes de correlaciones
- Tablas y coeficientes de contingencias
- Coeficiente de correlación de Pearson
- Recomendaciones
- Bibliografía
- Anexos
Resumen
Una forma de estudiar la posible dependencia entre variables es por medio de los coeficientes de correlaciones. El coeficiente de correlación establece una medida del posible nexo existente entre las variables consideradas. En el trabajo se examina la clasificación de las variables de acuerdo a la escala de medida utilizada. Se enumeran los principales coeficientes de correlaciones y en particular se detallan los coeficientes de contingencias y correlaciones de Pearson.
Se determinan fórmulas de tamaño de muestra para estimar probabilidades de contingencias, realizar análisis de residuos, construir intervalos de confianza y docimar hipótesis sobre la significación del coeficiente de correlaciones de Pearson.
Los cálculos de tamaños de muestras se hacen a partir de las distribuciones muestrales, las cuales de una manera asintótica convergen a distribuciones clásicas de la estadística.
En los intervalos de confianza se requiere prefijar la longitud del intervalo así como la probabilidad de confianza. En el caso de las Dócimas establecer las probabilidades de errores del tipo I y del tipo II.
Para ilustrar el cálculo de las fórmulas se presentan ejemplos cuyo único interés es mostrar los procedimientos de cálculo.
Introducción
Desde el surgimiento de la raza humana, el hombre se ha preocupado por conocer y entender el mundo que le rodea, descubrir las relaciones y leyes que lo rigen, para de esta manera, orientarse hacia el futuro en busca de una vida mejor.
Esta es la razón por la cual estudia los diferentes fenómenos observables, buscando en ellos nexos y relaciones que permitan explicar causas y efectos.
En el estudio de las dependencias entre causas y efectos, es importante analizar diferentes características involucradas en ellos. Briones (1987), ayuda en este sentido definiendo el concepto de variable como una propiedad, característica o atributo que puede darse en ciertos objetos o sujetos.
Los grados o modalidades diferentes de las variables permiten la clasificación de los individuos en categorías o clases y son susceptibles de identificación y medición.
Las variables pueden clasificarse de diferentes maneras. Se tiene la costumbre de llamar variables respuestas a las asociadas con los efectos ocurridos en el fenómeno y variables explicativas las asociadas con las causas o procesos del fenómeno estudiado.
En la búsqueda de los vínculos entre variables respuestas y variables explicativas puede hacerse uso de diferentes métodos matemáticos, entre ellos, tiene especial importancia el análisis de correlaciones.
Una forma de estudiar la posible dependencia entre variables es por medio de los coeficientes de correlaciones. El coeficiente de correlación establece una medida del posible nexo existente entre las variables consideradas. Para el estudio de población se estudia el coeficiente de correlación poblacional, en cambio para estimaciones de los parámetros correlaciónales desde una muestra, se examina el coeficiente de correlación muestral.
Un estudio de correlaciones necesita de una matriz muestral de datos, donde cada fila representa un elemento de la muestra y cada columna las observaciones de la variable correspondiente a ella. A partir de esta matriz se determina el coeficiente de correlación muestral. Se denota generalmente por "r". Surge la pregunta: ¿El número de observaciones y las formas de obtenerlas garantizan tener un coeficiente de correlación muestral capaz de representar el verdadero nexo entre las variables estudiadas?
La respuesta a esta pregunta requiere un análisis cuidadoso. Desde el coeficiente de correlación muestral "r" se desea estimar el coeficiente de correlación poblacional "?", que es un parámetro fijo de la población estudiada. Para diferentes muestras se obtienen diferentes coeficientes de correlaciones muestrales, es por ello que "r" es una variable aleatoria. La tarea es encontrar un tamaño de muestra que origine un intervalo con alta probabilidad de confianza y una longitud lo más pequeña posible.
Además de lo anterior, se tienen variables con diferentes clasificaciones: variables cualitativas que pueden ser ordinales o nominales. Variables cuantitativas que pueden ser discretas o continuas. Esto origina la necesidad de definir diferentes coeficientes de correlaciones, usados de acuerdo a los tipos de medidas usadas en cada una de las variables.
Son varios los coeficientes de correlaciones: Contingencia, Biserial del Punto, Tetracórico, Spearman, Kendall, Pearson, entre otros.
En el presente documento, en el primer capítulo se hace un panorama de los diferentes coeficientes de correlaciones. En el siguiente capítulo se selecciona para su estudio las tablas de contingencias. Estas a su vez se dividen en cuatro partes: cálculo de las probabilidades de contingencias, dócimas de independencia entre dos variables, análisis de los residuos y los coeficientes de correlaciones asociados a la contingencia. El tercer capítulo se dedica al coeficiente de correlación de Pearson. Estimación puntual, distribuciones muestrales, dócima de significación y fórmulas para su tamaño de muestra son los objetos tratados.
Capítulo 1:
Estudio de las dependencias entre variables por medio de los coeficientes de correlaciones
En las investigaciones empíricas desarrolladas para conocer sobre diferentes fenómenos, es importante definir características (constructos o variables) capaces de estudiar las dependencias entre los factores y los efectos que tienen lugar en los mismos.
Constructos y variables
Asociados a las características estudiadas se definen constructos hipotéticos. La Torre y otros (1996), presentan los constructos como entidades abstractas, bien definidas y articuladas. Ejemplos de constructos son la inteligencia, la motivación, la capacidad de aprendizaje en una investigación pedagógica.
Para estudiar los constructos se hace necesario analizar magnitudes observables que funcionan como indicadoras del constructo en cuestión. Estas magnitudes reciben el nombre de variables.
Las variables y los constructos están estrechamente ligados, de tal forma que constituyen, en cierta forma, las dos caras de una misma moneda. Los constructos hipotéticos se consideran como variables latentes, no observables directamente, en cambio las variables se pueden definir de forma operativa, es decir, describiendo las operaciones o actividades que han de realizarse para medir o manipular el objeto estudiado. El investigador ha de traducir las variables a definiciones observables, cuantificables y medibles.
Por ejemplo, del constructo «inteligencia» (aptitud para enfrentarse a situaciones nuevas con rapidez y éxito) se puede pasar a la variable «inteligencia» como puntuación obtenida en un test; del constructo «capacidad de aprendizaje» a la variable «rendimiento escolar» expresado en las calificaciones escolares.
Las operaciones o actividad que realiza el investigador para pasar del campo teórico, los constructos, al campo de la realidad observable, variable operativa, se designa como operativización de la variable. Consiste en encontrar variables más concretas, que sean representativas de aquéllas asociadas a los constructos.
En la operativización, se enuncian o definen las variables, se deducen sus dimensiones o aspectos principales y se buscan indicadores o circunstancias empíricas concretas de cada dimensión. Hay que tener en cuenta que una misma variable puede ser operativizada de diversas formas.
Para medir la intensidad de la acción explicada por ellas se han establecidos diferentes sistemas y escalas de medidas. Estas escalas de acuerdo al comportamiento de la propiedad estudiada, pueden ser nominal, ordinal, de intervalo o de razón.
Escalas de medidas
Siegel (1956), señala cuatro niveles de medida; cada uno posee sus propias características. En cada uno de ellos, están o no permitidas determinadas operaciones aritméticas. El tipo de escala depende de las operaciones empíricas que permite efectuar. En orden de precisión creciente, las cuatro escalas o niveles de medida son: la nominal, la ordinal, la de intervalos y la de razón.
Escala nominal: En esta escala la medición se da en un nivel elemental, los números u otros símbolos se usan para la clasificación de objetos, personas o características. Cuando se usan con el fin de distinguir entre sí los grupos a que pertenecen varios objetos, los números o símbolos constituyen una escala nominal o clasificatoria. La operación de escalamiento consiste en partir de una clase dada y formar un conjunto de subclases que se excluyen mutuamente. La única relación implicada es la de equivalencia, es decir los miembros de cualquier subclase deben ser equivalentes en la propiedad medida.
Escala ordinal: Puede suceder que los objetos de una categoría de la escala no sean precisamente diferentes a los objetos de otra categoría de la escala, sino que están relacionados entre sí. Relaciones típicas entre clases son las que comparan alturas, preferencia, dificultad, perturbación, madurez, etc. Tales relaciones pueden formularse con el signo ">", que significa mayor que. En cuanto a escalas particulares, ">" puede usarse para designar es preferible a, es más alto que, es más difícil que, etc. Su significado específico depende de la naturaleza de la relación que define la escala. En un grupo dado de clases equivalentes si la relación ">" se sostiene entre algunos pares de clases, tenemos una escala parcialmente ordenada. Si la relación ">" se sostiene en todos los pares de clases de tal modo que surja un rango ordenado completo, tenemos una escala ordinal.
Escala de intervalo: Cuando una escala tiene todas las características de una escala ordinal y además conocemos la distancia entre dos números cualesquiera, tenemos una medición considerablemente más fuerte que la ordinal. En tal caso, la medición se ha ejecutado en el sentido de una escala de intervalo. La misma está caracterizada por una unidad de medida común y constante que asigna un número real a todos los pares de objetos en un conjunto ordenado. La proporción de dos intervalos cualesquiera es independiente de la unidad de medida y del punto cero.
Escala de razón: Cuando una escala tiene todas las características de una escala de intervalo y además tiene un punto cero real en su origen, es llamada escala de proporción o de razón. La proporción de un punto a otro cualquiera de la escala es independiente de la unidad. Cualquier prueba estadística puede usarse cuando se ha logrado la medida de proporción.
1.2.2 Clasificación de las variables según la escala de medición
En la Enciclopedia Wikipedia (2007) se encuentra la siguiente clasificación de las variables:
Variables cualitativas: Son las variables que expresan distintas cualidades, características o modalidad. Cada modalidad que se presenta se denomina atributo o categoría y la medición consiste en una clasificación de dichos atributos. Las variables cualitativas pueden ser ordinales o nominales. Las variables cualitativas pueden ser dicotómicas cuando sólo pueden tomar dos valores posibles: "sí y no", o son politómicas cuando pueden adquirir tres o más valores. Dentro de ellas podemos distinguir:
Variable cualitativa ordinal: La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por ejemplo: "leve, moderado, grave"
Variable cualitativa nominal: En esta variable los valores no pueden ser sometidos a un criterio de orden como por ejemplo: "colores", "lugar de residencia".
Variables cuantitativas: Son las variables que se expresan mediante cantidades numéricas. Las variables cuantitativas además pueden ser:
Variable discreta: Es la variable que presenta separaciones o interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores específicos que la variable pueda asumir. Ejemplo: "número de hijos".
Variable continua: Es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores. Ejemplos: "peso", "altura". Está limitada por la precisión del aparato medidor, en teoría permiten que siempre existe un valor entre dos cualesquiera.
La covarianza como medida de dependencia entre dos variables aleatorias.
Para estudiar las asociaciones entre variables se puede usar el concepto de covarianza como medida de dependencia entre variables aleatorias.
En la teoría de probabilidades se estudia una condición necesaria y suficiente para que dos variables aleatorias sean independientes. Sean X, Y variables aleatorias con función de densidad conjunta f(x, y) y funciones de densidades marginales f(x) y f(y). Si se cumple f(x, y) = f(x)(f(y), las variables aleatorias X y Y son independientes. Para usar este resultado, se necesita tener las funciones de densidades marginales y conjuntas de las variables. Sin embargo en muchos casos no se conocen dichas densidades, es por ello que se acude a características numéricas capaces de reflejar los niveles de dependencias entre ambas variables
Un indicador importante de dependencia entre variables aleatorias es la covarianza entre ellas. Se define así:
C(X, Y) = E(X(Y) – E(X)(E(Y)
Si las variables aleatorias son independientes se cumple C(X, Y) = 0, es decir:
E(X(Y) = E(X)(E(Y)
Cuando se incrementa la diferencia entre E(X(Y) y E(X)(E(Y), aumenta el valor de la covarianza, indicando una mayor dependencia entre las variables X e Y.
Coeficientes de correlaciones
Una forma de explicar la dependencia entre dos variables aleatorias, eliminando las influencias de las dimensiones en los sistemas de medidas originalmente usados, es el coeficiente de correlación. Stanton J. (2001) explica que es Sir Francis Galton (1889), quien tiene el mérito de ser el primero en utilizar la correlación, aunque es su discípulo Karl Pearson (1857-1936) quien estudia con profundidad sus propiedades.
La selección de un determinado coeficiente de correlación está en dependencia de la escala de medidas usadas, el tipo de problema a resolver y los objetivos propuestos.
Los coeficientes de correlaciones deben ser fácilmente interpretables y deben estar acotados de manera que los factores indiquen asociación perfecta o falta de asociación. Suelen estar normalizados tomando valores entre 0 y 1 ó entre -1 y 1, lo cual permite las comparaciones entre muestras o poblaciones de diferentes tamaños.
Gibbons (1971), expresa que una buena medida de asociación debe tener las siguientes propiedades:
En el caso de tener una concordancia perfecta, es decir, para cualquier par de observaciones (Xi, Yi) y (Xj, Yj), se tiene Xi,< Xj si Yi,< Yj, ó Xi,> Xj si Yi,> Yj la medida de asociación tiene el valor +1.
En el caso de tener una disconcordancia perfecta, es decir, para cualquier par de observaciones (Xi, Yi) y (Xj, Yj), se tiene Xi,< Xj si Yi,> Yj, ó Xi,> Xj si Yi,< Yj la medida de asociación tiene el valor -1.
Si los criterios 1 y 2 no son verdaderos para todos los pares, la medida tiene un valor en el intervalo [-1, +1].
La medida de asociación es cero cuando las variables X e Y son independientes.
La medida para X e Y es la misma medida para Y y X, ó -X y -Y ó -Y y -X.
El signo de la medida de -X e Y ó -Y y X es opuesto al signo de la medida de X e Y.
La medida debe ser invariante a transformaciones de X e Y para los cuales el orden de las magnitudes sea preservado.
Coeficiente de correlación de Pearson
Pearson (1896), define una medida de asociación lineal entre dos variables cuantitativas (discretas ó continuas): X e Y. El coeficiente de correlación entre las variables aleatorias X e Y se escribe así:
Si X e Y son variables aleatorias independientes, su coeficiente de correlación es cero. Aunque en general no es verdad que una correlación cero indique independencia, este coeficiente es una buena medida de la asociación entre las dos variables.
Las variables del fenómeno bajo estudio tienen un coeficiente de correlación poblacional. Ese coeficiente es generalmente desconocido. Para conocer sobre él se realizan las observaciones del fenómeno, constituyéndose así una muestra: M. Con el conjunto de observaciones muestrales es posible estimar el valor del coeficiente de correlación poblacional.
1.4.2 Coeficientes asociados a una tabla de contingencias
Una medida de asociación entre variables cualitativas nominales es el estadístico Ji cuadrado. Para su cálculo, se construye una tabla de contingencias donde las f filas se corresponden con los niveles de la primera variable y las c columnas con los niveles de la segunda variable.
Para una muestra de n observaciones se determina el número de observaciones de la muestra con las categorías correspondiente a la fila i y columna j. Este valor recibe el nombre de frecuencia observada y se representa por nij. Se determina también la frecuencia esperada bajo el supuesto de variables independientes. Se representa por eij. Pearson (1900) define el estadístico Ji cuadrado así:
Varios coeficientes de correlaciones asociados a las tablas de contingencias son estudiados en epígrafes del capítulo 2:
1.4.3 Coeficiente de correlación tetracórica.
Cuando se estudia la asociación entre dos variables cuantitativas, cada una particionada en dos clases, se usa el coeficiente de correlación tetracórica. Se representa por rt. Las clases de cada variable son denotadas por 0 y 1. La disposición para su cálculo se muestra en la siguiente tabla de contingencia 2×2:
El cálculo de la correlación tetracórica es obtenido por iteración a partir de una serie infinita en rt, que viene dada (Amón, 1978) por medio de:
1.4.4 Coeficiente biserial del punto.
Cuando se desea estudiar la asociación entre una variable cuantitativa con una variable cualitativa nominal dicotómica, se puede usar el coeficiente biserial del punto. Palmer, A. y otros (2000).
Se codifica la variable dicotómica así:
Sea X = 0 cuando la variable cualitativa nominal adquiere la categoría designada por A
X = 1 cuando la variable cualitativa nominal adquiere la categoría designada por B
Sea p la proporción de elementos de la muestra donde X = 0.
Sea q la proporción de elementos de la muestra donde X = 1.
El coeficiente de correlación biserial del punto se define así:
1.4.5 Coeficiente de correlación muestral por ranking de Spearman.
Cuando las dos variables son cualitativas ordinales, es posible estudiar el nexo entre ellas usando el coeficiente de correlación por ranking de Spearman. Palmer, A., y otros (2000).
Sea n el número de elementos de la muestra. A cada elemento de la muestra se le asignan los ranking correspondientes de las variables X y Y. Sea x(1), …, x(n) los ranking de la primera variable y y(1), …, y(n) los ranking de la segunda variable. Para cada elemento se calcula la diferencia di = x(i) – y(i), como una indicación de la disparidad entre los dos conjuntos de rangos en esa observación. Cuanto mayor sean las di, tanto menos perfecta es la asociación entre las dos variables.
El cálculo del coeficiente de correlación sería afectado por el uso directo de las di: las di negativas cancelarían las positivas cuando se trata de determinar la magnitud de la discrepancia. Se emplea di2 en lugar de di para eliminar esta dificultad.
Como las variables X e Y son cualitativas, es posible usar el ranking del valor original, en este caso X e Y toman como valores los ranking correspondientes. El coeficiente de correlación de las medidas originales se transforma en el coeficiente de correlación por ranking de Spearman a nivel poblacional y se escribe (s.
La suma de todos los valores de la variable x(i) corresponde a la suma de los n enteros:
1,…, n es:
Las distribuciones muestrales del coeficiente de correlaciones por ranking de Spearman se estudian para dos alternativas: 1) tamaño de muestra pequeño, (muestras inferiores a 100 unidades) y 2) tamaño de muestra que se incrementa indefinidamente, originando la distribución asintótica de este coeficiente.
Por esta razón el diseño de la muestra para estudiar correlaciones por ranking de Spearman debe ajustarse a las variantes anteriores.
Palmer, A., Jiménez, R. y Montaño, J. J (2001) usan la distribución muestral asintótica del coeficiente de correlación de Spearman:
1.4.6 Coeficiente de correlación muestral por ranking de Kendall.
Cuando de las dos variables, al menos una es cualitativa ordinal, se puede usar el coeficiente de correlación de ranking de Kendall, designado por rk. Es una medida de correlación conveniente para datos que se puedan ordenar. Palmer, A., y otros (2000).
En cada una de las variables se sustituye cada valor por sus respectivos rankings. Los rankings de la primera variable X se colocan en su orden natural:
La suma de esas diferencias tiene la siguiente propiedad, si la suma es igual a las V(n -2), eso quiere decir que no hubo discrepancias entre los ranking de X y de Y, por lo tanto la concordancia es perfecta, por ello las variables X e Y están correlacionadas de forma perfecta.
1.4.7 Coeficiente G Gamma de Goodman- Kruskal
Nagpaul P. S. (2001), expresa que cuando los valores de las dos variables se pueden ordenar según sus rankings, el posible nexo entre dichas variables debe ser estudiado usando el coeficiente G Gamma de Goodman Kruskal.
En este caso los n elementos de la muestra son ordenados de la misma manera que en el coeficiente de correlación de Kendall.
Cuando las variables X e Y son independientes, el número de pares concordantes es igual al número de pares discordantes, el coeficiente gamma toma el valor cero.
Si todos los pares son concordantes, la relación entre X e Y es directa y perfecta. En este caso el coeficiente gamma toma el valor +1.
Cuando todos los pares son discordantes, la relación entre X e Y es inversa y perfecta. En este caso el coeficiente gamma tiene el valor -1.
El coeficiente gamma se diferencia del coeficiente de Kendall en el sentido que no considera los pares donde los rankings están empatados.
Capítulo 2:
Tablas y coeficientes de contingencias
2.1 Probabilidades de contingencias
En esta población se investiga la posible asociación entre dos variables cualitativas X e Y. Para ello se necesita estudiar un coeficiente de correlación que cumpla con las propiedades definidas en el Capítulo 1. Uno de esos coeficientes es el de contingencias.
El coeficiente de contingencias es calculado desde una tabla de contingencias. En esta tabla las f filas representan las f categorías de la primera variable X: A1, A2,…, Ai,…, Af y las c columnas representan las c categorías: B1, B2,…, Bj,…, Bc de la segunda variable Y.
Las f ( c celdas de la tabla de contingencias contienen las frecuencias de elementos de ? que tienen las categorías correspondientes a cada celda. En cada celda (i, j) existen Nij elementos poblacionales, son aquellos donde X alcanza la categoría Ai mientras que Y alcanza la categoría Bj.
En la tabla de contingencias anterior se pueden definir las probabilidades asociadas a cada una de las celdas. Se trata de la probabilidad que tiene un elemento poblacional de pertenecer a una celda particular. Esta probabilidad para la celda (i, j) está dada por
Tabla 2.2 Tabla de probabilidades de contingencias.
2.1.1 Estimación de probabilidades de contingencias
Una muestra simple aleatoria de tamaño n fijo se clasifica de acuerdo con las categorías de dos variables aleatorias cualitativas. La distribución a priori de las frecuencias observadas por casillas usadas en este tipo de muestreo tiene distribución multinomial, la cual es determinada por el tamaño de la muestra n y las f(c probabilidades pij
Sea vij la variable aleatoria cuyos valores es la cantidad de observaciones obtenidas con categorías Ai y Bj, El valor obtenido se llama frecuencia observada y se escribe nij. Las probabilidades de ocurrencias de una tabla de contingencias es:
Se estima a continuación la probabilidad del evento que consiste en que una observación caiga en una determinada celda (i, j) en el esquema multinomial.
Para la muestra aleatoria simple se tiene la función de verosimilitud:
Aplicando logaritmo natural:
Derivando respecto al parámetro pij se tiene:
De forma análoga se puede hacer con cada uno de los f (c parámetros pij. O sea el posible estimador de máxima verosimilitud para la probabilidad pij es:
2.1.2 Determinación del tamaño de la muestra para estimar probabilidades de contingencias de una población por medio de la cota superior del error de muestreo.
El estimador de máxima verosimilitud calculado para pij es:
En cada casilla (i-j), usando el teorema central del límite se tiene:
La diferencia entre la probabilidad de contingencia muestral y la probabilidad de contingencia poblacional se llama error de muestreo.
Se exponen dos variantes:
1. Por medio de la acotación del producto de probabilidades binomiales.
2. Por medio de un muestreo secuencial.
1) Por medio de la acotación del producto de probabilidades binomiales.
El máximo valor posible del producto de las probabilidades de la distribución Binomial es 0.25. Es decir:
2) Por medio de un muestreo secuencial.
Con este valor se calcula el tamaño de muestra del paso siguiente:
2.1.3 Aplicaciones de las probabilidades de contingencias.
Ejemplo 2.1.3 Sobre el uso de las probabilidades de contingencias.
Con la base de datos del proyecto Mercury de la UFMT (1997), se seleccionan las variables:
X: Poblado de residencia.
Y: Niveles de contaminación de Mercurio en cabello.
Se desea estimar en cada una de las poblaciones de la bajada cuiabana, al sur de Barão de Melgaço la probabilidad de contaminación por Mercurio que tienen sus pobladores.
Las seis poblaciones estudiadas son:
Barra de Arica
Piuva y Rancheria
Estirom Cumplido
Puerto Brandom
Cuiaba Mirim
Boca de Conchas
Para obtener las tablas con las probabilidades de incidencias en cada uno de los poblados, se usa una probabilidad de confianza 0.95 y una cota superior del error de muestreo igual a 0.10 con las cuales se pueden determinan los tamaños de muestras necesarios del procedimiento secuencial.
Para este propósito, el punto de partida es una muestra inicial M0, cuyo tamaño es fijado en n0 = 30.
A las 30 personas seleccionadas para M0, se les toma una pequeña muestra de cabellos, los que son analizados en los laboratorios de la UFMT. El análisis proporciona los valores de ppm de Hg contenidos en ellos. De acuerdo a los valores alcanzados, las personas se clasifican así:
no contaminada
normal bajo exposición
contaminada
Los resultados obtenidos aparecen en la tabla 2.3.
Para obtener el tamaño de la muestra M1, se mantiene la misma probabilidad de confianza y cota superior de error de muestreo y sustituyendo en la fórmula (2.12) por la mayor probabilidad de contingencia se obtiene el valor n1 = 62.
Tabla 2.3 Resultados de M0
Para formar la muestra M1, a las 30 personas de la muestra M0, se le adicionan 32 nuevos individuos, con ellos se completa el tamaño calculado de 62 personas.
Los cálculos correspondientes a la muestra M1 aparecen en la tabla 2.4.
Tabla 2.4 Resultados de M1
Con la misma probabilidad de confianza y cota superior de error de muestreo y sustituyendo en la fórmula (2.13) por la mayor probabilidad de contingencia se obtiene el valor n2 = 61. Como n2 < n1 se detiene el proceso. Por lo tanto M1 se convierte en la muestra recomendada para la determinación de las probabilidades de contingencias.
En base a las estimaciones de probabilidades realizadas en M1, la población con mayor probabilidad, respecto al total, de tener personas contaminadas es Puerto Brandom con un valor de 0.048.
2.2 Dócima de hipótesis sobre la independencia de variables en una tabla de contingencias.
Un importante uso de las tablas de contingencias es cuando se desea conocer si las variables X e Y son independientes.
Frente a esta hipótesis se plantea la hipótesis alternativa:
Caso contrario, no se rechaza la posible independencia entre estas variables.
Una corrección para continuidad debida a Yates es usada en determinadas situaciones. Se trata que el estadístico ?2 construido desde variables aleatorias con distribuciones discretas tenga distribución límite Ji cuadrado que es continua. Frank Yates (1934) sugiere una corrección para continuidad la cual ajusta la dócima Ji cuadrado de Pearson sustrayendo 0.5 desde la diferencia en módulo existente entre frecuencia observada y frecuencia esperada para tablas de contingencias 2(2. Esta corrección es conveniente para cuando se tienen células con frecuencias esperadas menor que 5. Su expresión es:
2.2.1 Procedimiento para la dócima de hipótesis sobre independencia de variables por medio de una tabla de contingencias.
1. Determinar las dos variables cuya posible dependencia se desea encontrar.
2. Plantear la hipótesis inicial de independencia entre las variables.
3. Plantear la hipótesis alternativa de asociación entre esas variables.
4. Fijar la probabilidad de rechazar la hipótesis inicial cuando esta es cierta. Se representa por a y se le llama probabilidad de cometer un error de tipo I o también nivel de significación.
5. Asociar una variable a las filas de la tabla de contingencias y la otra a sus columnas.
6. Definir los niveles de cada una de las variables.
2.2.2 Aplicaciones de la dócima para determinar dependencias entre variables aleatorias.
En la dócima sobre independencia entre las variables se deben tener presentes un conjunto de circunstancias: una de las principales se refiere al número de categorías a usar. No debe ser tan pequeño que no se pueda estudiar la posible asociación entre las variables ni tan grande que incremente de forma desproporcionada el número de celdas, en este caso disminuye tanto la frecuencia absoluta observada como la frecuencia absoluta esperada, distorsionando los estadísticos utilizados.
Ejemplo 2.2.2 Sobre la dócima de independencia entre variables.
Se desea conocer si en personas hipertensas existe asociación o no entre los antecedentes de Accidente Cardiovascular y el nivel de Stress. Siguiendo el procedimiento explicado se desarrollan los siguientes pasos:
1. Las dos variables cuya posible asociación se desea docimar son:
X: Antecedentes de accidente cardiovascular.
Y: Stress.
2. Se plantea la hipótesis inicial equivalente a la afirmación de que ambas variables son independientes.
3. Se escribe la hipótesis alternativa: Los antecedentes de ACV están asociados a los niveles de Stress.
4. La probabilidad de rechazar la hipótesis inicial cuando ella es cierta se fija en 0.05.
5. Para realizar esta dócima se asocia la variable ACV a las filas y los niveles de Stress a las columnas.
6. Los niveles de la primera variables ACV son:
"no" para los hipertensos sin antecedentes cardiovasculares.
"si" para los hipertensos con antecedentes de accidentes cardiovasculares.
En la segunda variable se estudia el nivel de Stress por medio de pruebas que califican a los hipertensos en Stress Bajo, Stress Medio ó en Stress alto.
7. Se seleccionan 30 casos de hipertensos con accidentes cardiovasculares y otros 30 casos de hipertensos sin accidentes de este tipo. En cada uno por medio de su historia clínica y las pruebas correspondientes se construye la tabla de contingencias de frecuencias observadas
Antecedentes de ACV vs Stress
2.3 Análisis de los residuos en una tabla de contingencias.
Después de rechazar la hipótesis inicial H0 de variables aleatorias independientes, en una dócima de hipótesis sobre asociación de variables en una tabla de contingencias, resulta conveniente realizar un análisis de todos los residuos.
Los residuos estandarizados se definen así:
Bajo el supuesto de independencia, o sea, si la hipótesis nula es cierta, se tiene entonces:
2.3.1 Tamaño de muestra para el análisis de residuos cuando se usan los "residuos ajustados" de todas las celdas.
La suma de todos los "residuos ajustados" dij converge también en ley a la distribución normal, la esperanza matemática de esta suma sigue siendo cero, pero su varianza es fc.
En el caso de los promedios de los "residuos ajustados" se tiene:
Observación: Mientras más aumenten las categorías de las variables X e Y mayor será el tamaño de muestra requerido.
2.3.2 Aplicación del análisis de residuos
Ejemplo 2.3.2 Sobre el uso del análisis de residuos.
En el Plano director participativo de la ciudad de Tabatinga, interior del estado de Amazonas, Brasil, se desarrolla una investigación para diagnosticar los principales problemas de esa ciudad. Entre otras variables, se desea conocer si existe asociación entre el estar enfermo o no con el tipo de agua usada en sus casas: acueducto o pozo.
La probabilidad de confianza es fijada en 0.95 y el límite superior para el promedio de los "residuos ajustados" sin significación se fija en 0.1
Sustituyendo en la fórmula (2.15) y redondeando el resultado obtenido a un múltiplo de 10 se tiene n = 1540.
La muestra es constituida por 1540 personas. Ellas son visitadas y después de ser entrevistadas, se tiene la siguiente tabla de frecuencias observadas:
Se usa el procedimiento tabla de contingencias para docimar las hipótesis. Los resultados del análisis de contingencias se muestran en las tablas 2.5 y 2.6.
Tabla 2.5 Tabla de contingencia del ejemplo 2.3.2
Valores | grados de libertad | Significación asintótica bilateral. | ||
Estadístico Ji cuadrado | 13.839(b) | 1 | 000 | |
Corrección de Continuidad | 12.934 | 1 | 000 | |
Razón de Verosimilitud | 13.702 | 1 | 000 | |
Número de casos validos | 1540 |
Tabla 2.6 Resultados del ejemplo 2.3.2
Por medio del estadístico Ji cuadrado se obtiene una asociación significativa entre las dos variables. Esta significación es ratificada con la corrección de continuidad y la razón de verosimilitud.
Haciendo el análisis de los residuos en cada una de las celdas de la tabla de contingencias se observa significación en los cuatro residuales ajustados, por lo tanto, todos los residuos son significativos.
Por lo tanto el tipo de agua: Acueducto o Pozo artesano influye en el hecho de estar enfermo o no.
2.4 Coeficientes de correlaciones asociados a las tablas de contingencias.
Cuando es rechazada la hipótesis inicial sobre la independencia de las variables estudiadas surgen las preguntas: ¿Cuál es la intensidad de la asociación entre esas variables? ¿Cuál es la dirección en que se produce la asociación?
Son varios los coeficientes de correlaciones usados para estos fines. Entre ellos se pueden citar los coeficientes: contingencia, V de Cramer y phi.
2.4.1 Coeficiente de contingencia
Página siguiente |