Descargar

Muestreo para correlaciones por contingencias y de Pearson (página 2)


Partes: 1, 2

El valor máximo que puede alcanzar el coeficiente de contingencia depende del número de categorías de las variables estudiadas. En el caso de una tabla 2(2 el máximo valor de C es 0.7071, en cambio para una tabla 3(3 es 0.8165. Esto origina otra desventaja, dos coeficientes de contingencias no son comparables, a menos que ellos sean calculados de tablas de contingencias del mismo tamaño.

En el ejemplo 2.3.2 el coeficiente de contingencia C = .048 con probabilidad de significación 0.007. Es interesante observar lo siguiente: Aunque el valor del coeficiente es pequeño, sin embargo es significativamente diferente de cero, lo cual ratifica la no independencia entre las variables.

2.4.2 Coeficiente V de Cramer

edu.red

Una ventaja de este coeficiente consiste en la posibilidad de calcular su distribución muestral y así poder determinar su error típico de estimación.

En el ejemplo 2.3.2 el coeficiente V de Cramer tiene el siguiente valor V = .048 con probabilidad de significación 0.007. Se observa la coincidencia entre la contingencia y el coeficiente V de Cramer en este ejemplo.

2.4.3

edu.red

Capítulo 3:

Coeficiente de correlación de Pearson

En este capítulo se examina uno de los principales coeficientes de correlaciones para variables medidas en escalas por intervalos o de razón. Es el coeficiente de correlación de Pearson. Se define el coeficiente para una población y se hacen cálculos para obtener tamaños de muestras necesarios para hacer estimaciones por intervalos de confianza de este coeficiente a nivel poblacional, con un bajo nivel de errores y una alta precisión. De igual forma se determina el tamaño de muestra necesario para hacer dócimas de hipótesis sobre la significación del coeficiente. Con el propósito de ilustrar estos aspectos, se presentan aplicaciones usando el coeficiente de correlaciones muestral de Pearson.

3.1 Coeficiente de correlación de Pearson para una población.

Cuando en el fenómeno estudiado las dos variables son cuantitativas se usa el coeficiente de correlaciones de Pearson. Es llamado así en homenaje a Karl Pearson. Las dos variables son designadas por X e Y.

El coeficiente de correlación poblacional de Pearson para las variables X e Y se define así:

edu.red

Este coeficiente es una medida de la relación lineal entre las dos variables. El valor de ( está dentro del intervalo [-1, +1]. El valor -1 representa una perfecta correlación negativa mientras que el valor +1 representa una perfecta correlación positiva. El valor 0 representa falta de correlación. Cuando las variables X e Y son independientes, el numerador se anula y el coeficiente de correlación poblacional tiene el valor cero. En cambio una correlación nula no implica la independencia de variables.

3.1.1 Interpretación geométrica de (

edu.red

edu.red

Figura 3.1

edu.red

Figura 3.2

edu.red

Figura 3.3

3.2 Estimación puntual del coeficiente de correlación poblacional de Pearson por medio de una muestra aleatoria simple

En el fenómeno estudiado se realizan observaciones con el propósito de tener una muestra M. Sea n el número de elementos muestrales.

edu.red

El subíndice i cuenta las observaciones muestrales, en este caso i = 1, 2,…, n.

Al estimador r se le denomina coeficiente de correlación muestral de Pearson. Como el valor de r es función de los valores muestrales obtenidos, el estimador es una variable aleatoria. Es decir, para cada selección muestral de la misma población, r toma un valor diferente.

Una tarea es conocer la distribución del coeficiente de correlación muestral.

3.2.1 Distribuciones muestrales asociadas al coeficiente de correlaciones de Pearson

Para el caso de variables aleatorias con distribución normal bivariada, Fisher [1] encontró para una muestra de tamaño n, la distribución muestral de r. Este estimador tiene función de densidad:

edu.red

Esta función de densidad es similar a la función de densidad de la distribución t de Student. Por medio de la siguiente transformación se puede obtener.

edu.red

3.3 Estimación por intervalo del coeficiente de correlaciones poblacional de Pearson

Ya se ha examinado la estimación puntual de este coeficiente, pero eso no es suficiente, se necesita conocer el error originado por el muestreo, así como la probabilidad de tener el verdadero valor de ? próximo al valor obtenido. Para estos casos se usa una estimación por intervalo de confianza.

Un intervalo de confianza, es aquel intervalo donde se encuentra el valor del parámetro desconocido con una probabilidad de confianza ?. Se denota por L la longitud del intervalo de confianza.

Para estimar el coeficiente de correlación de Pearson por medio de un intervalo de confianza se usan las distribuciones muestrales de r.

edu.red

edu.red

3.3.1 Tamaño de muestra necesario, para estimar por un intervalo de confianza, el coeficiente de correlaciones poblacional de Pearson

Cuando se fija la longitud del intervalo de confianza para el coeficiente de correlación poblacional (, es posible determinar el valor de n, o sea el tamaño de la muestra con el cual se garantiza un límite del error de muestreo menor que la semi-amplitud del intervalo de confianza.

edu.red

Usando (3.10) se tiene en (3.9):

edu.red

Efectuando:

edu.red

De esta forma el tamaño de muestra para estimar el coeficiente de correlación de Pearson por medio de un intervalo de confianza de longitud L es:

edu.red

Observaciones:

1. En la misma medida que el valor del coeficiente de correlación pre-muestral se hace menor, aumenta el valor del tamaño de muestra.

2. Una reducción de la probabilidad de confianza afecta en poca medida el tamaño de la muestra.

3. El elemento de la fórmula (3.14) que influye más decisivamente en el valor de n es la longitud del intervalo de confianza. Compare en la Tabla 3.1 los valores de n para l = 0.2 con los valores de n para l = 0.1

3.3.2 Implementación del muestreo

Para implementar el muestreo en primer término se debe seleccionar el tamaño del intervalo y la probabilidad de confianza. Por medio de una muestra inicial tener un primer valor del coeficiente de correlación muestral de Pearson. Con esos datos, ir a la fórmula (3.14) y calcular el tamaño de muestra.

Ejemplo 3.3.2 Sobre el tamaño de muestra necesario para obtener un intervalo de confianza del coeficiente de correlación.

Se supone que se desea calcular un intervalo de confianza de longitud 0.2 y probabilidad 0.95 para estimar el coeficiente de correlación de Pearson. Desde una muestra inicial se obtiene un coeficiente de correlación muestral 0.4. ¿Cuál debe ser el tamaño de la muestra definitiva?

Aquí r = 0.4 L = 0.2 ? = 0.95 lo cual implica zq = 1.96, Sustituyendo se tiene el tamaño de muestra 273.

Una tabla de valores de n para ? = 0.95, con valores de L = 0.1 ó 0.2 y diferentes valores de r aparece en la tabla A.1 del anexo A.

Una vez calculado el tamaño de muestra, es decir, el valor de n, por un procedimiento aleatorio, se selecciona un número n de unidades de la población. Es importante garantizar que todas las unidades poblacionales tengan la misma probabilidad de pertenecer a la muestra.

Una vez realizado el muestreo y hecho el cálculo del nuevo coeficiente de correlación muestral, este valor debe ser comparado con el valor obtenido en la premuestra. Si la discrepancia es acentuada, debe ser calculado un nuevo tamaño de muestra n1, y realizar n – n1 observaciones adicionales. Este proceso se debe continuar hasta que las diferencias entre los valores de r converjan a cero.

Ya estabilizadas las correlaciones muestrales, la estimación puntual del coeficiente de correlación poblacional es usada para construir el intervalo de confianza para el coeficiente de correlación poblacional.

3.3.3 Aplicaciones de la estimación por intervalo de confianza del coeficiente de correlación de Pearson.

Ejemplo 3.3.3 Sobre la estimación de un intervalo de confianza para el coeficiente de correlación de Pearson.

En la estación meteorológica de Benjamin Constant en el estado de Amazonas, Brasil se desea estimar el valor del coeficiente de correlación entre la temperatura del aire a la 1pm y la humedad relativa también a la 1pm. Esta estimación se desea hacer con un error del muestreo en el coeficiente de correlación muestral menor de 0.1. La probabilidad de confianza está fijada en 0.95.

Se toma el mes de Junio 2000 como premuestra, para esos 30 días se obtiene un coeficiente de correlación de Pearson igual a – 0.6084. Sustituyendo este valor en la fórmula (3.14), se obtiene el tamaño de muestra necesario para este tipo de estimación, en este caso, n = 156.

Para la estimación del coeficiente de correlación poblacional se usa en definitiva una muestra de 184 observaciones formada por los datos meteorológicos de Mayo, Junio y Julio del 2000 más los datos meteorológicos de Mayo, Junio y Julio del 2001.

Con estas 184 observaciones se obtiene un coeficiente de correlación muestral: – 0.5281.

Es decir

r = – 0.5281

edu.red

Esto es, el coeficiente de correlación entre la temperatura al aire 1PM y la humedad relativa 1PM en la estación meteorológica de Benjamín Constant, Amazonas, Brasil, está entre – 0.625 y – 0.4152.

3.4 Dócimas de hipótesis sobre el coeficiente de correlación de Pearson.

Si el propósito es realizar una dócima sobre la significación del coeficiente de correlación de Pearson, la determinación del número de unidades muestrales es necesario hacerlo de manera diferente.

3.4.1 Determinación del tamaño de la muestra.

Si se quiere llevar a cabo un estudio con el fin de determinar si existe o no una relación significativa entre dos variables numéricas X e Y. Para llevar a cabo la investigación, se recoge una muestra de individuos en donde de cada uno de ellos se determina el valor que toma cada una de las dos variables. A continuación se muestra cómo calcular el tamaño de muestra necesario para contrastar la hipótesis inicial

edu.red

Como se dijo anteriormente, la distribución muestral del coeficiente de Pearson no es normal, pero bajo la suposición de que las dos variables de estudio presentan una distribución normal bivariada, el coeficiente de correlación de Pearson puede transformarse para conseguir un valor de z que sigue una distribución normal.

edu.red

Utilizando esta aproximación, se obtiene fácilmente una fórmula para el cálculo del número de unidades a muestrear. Se precisa conocer:

edu.red

Las fórmulas anteriores pueden modificarse con el fin de ajustar el tamaño muestral previsto para el estudio a posibles pérdidas de información que se pueden producir durante el desarrollo del mismo.

edu.red

3.4.2 Aplicaciones del diseño muestral a las dócimas de hipótesis sobre el coeficiente de correlación de Pearson.

Ejemplo 3.4.2 Sobre las dócimas asociadas al coeficiente de correlación de Pearson.

Se desea estudiar las correlaciones entre las tensiones arteriales "máximas y mínimas", y la edad. Usando la base de datos Mercury de la UFMT. Se seleccionan 224 personas cuya distribución por edades aparece en el siguiente gráfico:

edu.red

Gráfico 1

Los coeficientes de correlaciones entre las variables estudiadas aparecen en la tabla:

Tensión arterial máxima

Tensión arterial mínima

Frecuencia cardiaca

Edad

Tensión arterial máxima

Correlación de Pearson

1

,794(**)

-,082

,579(**)

Significación bilateral

,000

,221

,000

n

224

224

224

224

Tensión arterial mínima

Correlación de Pearson

,794(**)

1

-,114

,605(**)

Significación bilateral

,000

,088

,000

n

224

224

224

224

Frecuencia cardiaca

Correlación de Pearson

-,082

-,114

1

-,074

Significación bilateral

,221

,088

,272

n

224

224

224

224

Edad

Correlación de Pearson

,579(**)

,605(**)

-,074

1

Significación bilateral

,000

,000

,272

N

224

224

224

224

Tabla 3.1 Matriz de correlaciones del ejemplo 3.4.2

Como el máximo interés es determinar si existe correlación significativa a = P(I) = 0.05 con ß = P(II) = 0.10 entre las tensiones arteriales y la edad se usa el valor de r = 0.6 para determinar el tamaño de muestra necesario. Usando la tabla A.3 del Anexo 3 se encuentra n = 25, por ello se mantiene como válida la muestra de 224 personas.

Se puede observar en la muestra estudiada un coeficiente de correlación positivo entre tensión arterial máxima y mínima con valor 0.7944 altamente significativo.

La edad tiene correlación positiva altamente significativa con la tensión arterial máxima y la tensión arterial mínima. En cambio no correlaciona con la frecuencia cardiaca, aunque su signo es negativo.

Conclusiones:

  • 1. El coeficiente de correlación debe ser seleccionado en base a las escalas de medidas usadas en cada una de las variables.

  • 2. La determinación del tamaño de muestra en las de tablas de contingencias varia según sea el objetivo:

  • a) Determinar probabilidades de incidencias.

  • b) Docimar independencias entres dos variables.

  • c) Analizar la asociación entre las variables.

  • 3. El tamaño de muestra para construir intervalo de confianza para el coeficiente de correlación poblacional de Pearson es función de la longitud del intervalo, de la probabilidad de confianza y del coeficiente de correlación muestral. Por esta razón se sugiere un procedimiento secuencial para este propósito.

  • 4. El tamaño de muestra para docimar la significación del coeficiente de correlación poblacional de Pearson es función de las probabilidades de cometer errores del tipo I y del tipo II y del valor del coeficiente de correlación muestral. Por esta razón se sugiere un procedimiento secuencial para esta dócima.

Recomendaciones

  • 1. Estudiar procedimientos de muestreos para los coeficientes de correlaciones de Spearman, Kendall, Gamma, …

  • 2. Continuar profundizando sobre las propiedades asintóticas de los tamaños de muestras.

  • 3. Extender los estudios de muestreos para los análisis de correlaciones con más de dos variables.

Bibliografía

Amon, J. (1978), Estadística para psicólogos 1. Estadística descriptiva, Ed. Pirámide. Madrid.

Anderson, T.W., (1958), An Introduction to Multivariate Statistical York, Ed. John Wiley and Sons, Inc. New York.

Briones (1987), Métodos y técnicas de investigación social. Editorial Trillas. México.

Cué J.L., E. Castell y J. M. Hernández, (1987), Estadística II, Ministerio de Educación Superior. Ediciones UH. Ciudad Habana. Cuba

Daniel, W., (1990), Applied nonparametric statistics, 2ª ed. Boston: PWS-KENT.

Fisher, R.A. (1915), Frequency distribution of the values of the correlation coefficient in samples from an indefinitely large population, Biometrika, 10, 507-521.

Fisher, R.A. (1924), The distribution of the partial correlation coefficient, Metron 3, 329-332.

Fisz M. (1963), Probability Theory and Mathematical Statistics, Ed. John Wiley and Sons, Inc. New York.

Galton, F. (1889), Natural Inheritance, Ed. Macmillan and Co. London.

Gibbons, J.D., (1971), Nonparametric Statistical Inference, McGraw-Hill Book Company. New York.

Hoel, P. G., (1962), Introducción a la Estadistica Matemática, Ed. John Wiley and Sons, Inc. New York.

Latorre, A., Del Rincón, I y Arnal, A. (1996), Bases metodológicas de la investigación educativa, Yordi Hurtado Mampeó- Editor Barcelona, España.

Linares, G., (1990), Análisis de Datos, Ministerio de Educación Superior. Ediciones UH. Ciudad Habana. Cuba

Nagpaul, P. S. (2001), Guide to Advanced Data Analysis using IDAMS Software, http://www.unesco.org/webworld/idams/advguide/TOC.htm

Neyman, J. y E. S. Pearson (1928), On the use and interpretation of certain test criteria for purpose of statistical inference, Biometrika 20A, 175-240 y 263-294.

Palmer, A.; Jiménez, R. y J. J. Montaño, (2000), Tutorial sobre el coeficiente de correlación con una ó dos variables categóricas, Revista Electrónica De Psicología Vol. 4, número 2 ISSN 1137-8492.

http://www.psiquiatria.com/psicologia/revista/50/2830

Palmer, A.; Jiménez, R. y J. J. Montaño, (2001), Tutorial sobre el coeficiente de correlación lineal de Pearson, Revista Electrónica De Psicología Vol. 5, número 1 ISSN 1137-8492 http://www.psiquiatria.com/psicologia/revista/51/2815

Pearson, K. (1896), Mathematical Contributions to the Theory of Evolution. III. Regression, Heredity and Panmixia, Philosophical Transactions of the Royal Society of London, 187, 253-318.

Pearson, K. (1900), On a criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can reasonably supposed to have arisen from random sampling, Philos. Mag., Ser. 5, 50, 157-175.

Rao, C. R. (1973), Linear Statistical inference and its Applications, 2nd Edition. Editorial John Wiley and Sons, Inc. New York.

Siegel, S., (1956), Non-parametric Statistics for the Behavioral Sciences, McGraw-Hill Book Company. New York.

Stanton J. M. (2001), Galton, Pearson, and the Peas: A Brief History of Linear Regression for Statistics Instructors, Journal of Statistics Education Volume 9, Number 3

Quantitative Methods in Public Administration Phi, the contingency coefficient, Tschuprow"s T, y Cramer"s V.

"http://www2.chass.ncsu.edu/garson/pa765/assocnominal.htm"

Wikipedia, la enciclopedia libre (2007), Variable estadística, Wikipedia Foundation , Inc "http://es.wikipedia.org/wiki/Variable_estadÃstica"

Wilks S. S., (1962), Mathematical Statistics, Editorial John Wiley and Sons, Inc. New York.

Yates, F (1934). Contingency table involving small numbers and the ?2 test. Journal of the Royal Statistical Society (Supplement) 1: 217-235.

Anexos

Anexo 1 Selección de los coeficientes de correlaciones de acuerdo a las escalas de medidas usadas en las variables.

edu.red

Tabla A.1 Escalas de medidas de las variables y coeficientes de correlaciones usados.

Nota: Los tamaños de muestras en las líneas sombreadas no son confiables, por ser calculados con procedimientos asintóticos, validos sólo cuando n es grande.

Anexo 2 Tamaños de muestras para construir intervalos de confianza para el coeficiente de correlación de Pearson.

edu.red

Nota: Los tamaños de muestras en las líneas sombreadas no son confiables, por ser calculados con procedimientos asintóticos, validos sólo cuando n es grande.

Anexo 3 Tamaños de muestras para docimar la significación del coeficiente de correlación de Pearson.

edu.red

 

 

Autor:

Gustavo Vicente Rojas García

Uvedel Bernabé Del Pino Paz

María Milena Rodríguez Fernández

 

Partes: 1, 2
 Página anterior Volver al principio del trabajoPágina siguiente