Distribuciones empíricas de frecuencias bivariadas, bidimensionales o conjuntas (página 2)
Enviado por Rolando Mart�nez Marrero
Si hacemos clic en el botón Opciones tabulares (en inglés, Tabular Options), o sea, en el botón amarillo de la barra de herramientas, observen que de las 4 opciones, las dos primeras están seleccionadas, ellas corresponden precisamente a las dos ventanas que salen procesadas junto con los dos gráficos. Cuando deseamos seleccionar y procesar todas las opciones, damos clic en el botón Todos que aparece en la parte de abajo. La tercera opción, o sea, el Contraste (prueba, test o dócima) de Chi-cuadrado, es la opción que nos permite probar si las dos variables X1 y X2 son estadísticamente independientes, pero esta opción será analizada después que se estudie el concepto de independencia y dependencia estadística entre dos variables.
La cuarta opción, o sea, Resumen estadístico, muestra el cálculo de varios estadígrafos o estadísticos que miden el grado de asociación entre las variables. De todas estas medidas de asociación, sólo será de nuestro interés, el coeficiente de correlación lineal R de Pearson, el cual será estudiado y analizado posteriormente.
Si estamos en la ventana correspondiente a la segunda opción, es decir, la opción Tabla de frecuencias, y hacemos clic en el botón secundario del mouse, es decir, hacemos clic derecho, y usamos Opciones de ventana (en inglés, Pane Options), sale un submenú con seis opciones que son las siguientes: Porcentajes de tabla, Porcentajes de fila, Porcentajes de columna, Frecuencias Esperadas, Frecuencias esperadas – Frecuencias observada y Valores Chi-cuadrado.
La primera opción, es decir, Porcentajes de tabla, la cual aparece siempre activada, se usa cuando se desea calcular los porcentajes (frecuencias relativas) con respecto al número total de observaciones o tamaño de la muestra (n). Si esta opción se desactiva, entonces en la tabla no aparecerán los porcentajes, y por ende, no aparecerán las frecuencias relativas. La segunda opción, es decir, Porcentajes de fila, se usa cuando se desea calcular los porcentajes (frecuencias relativas) con respecto al número total de observaciones de la fila de esa celda, o lo que es lo mismo, con respecto a la frecuencia absoluta marginal de la fila de esa celda. La tercera opción, es decir, Porcentajes de columna, se usa cuando se desea calcular los porcentajes (frecuencias relativas) con respecto al número total de observaciones de la columna de esa celda, o lo que es lo mismo, con respecto a la frecuencia absoluta marginal de la columna de esa celda. La cuarta opción, es decir, Frecuencias esperadas, se usa cuando se desea obtener las frecuencias esperadas si las variables son independientes. La quinta opción, es decir, Desviaciones, se usa cuando se desea obtener las diferencias entre las frecuencias observadas y esperadas. La sexta opción, es decir, Valores Chi-Cuadrado, se usa cuando se desea conocer la contribución de la celda al valor del estadígrafo o estadístico Chi-cuadrado (χ2) utilizado para comprobar la independencia entre las variables. Por ejemplo, hubo 2 veces en las que X1 es igual a 0 y X2 es igual a 1. Esto representa el 8 % del total de 25 observaciones. Si X1 y X2 son independientes, la frecuencia esperada en esa celda sería 0,6. Esta es una desviación de 1,4. La contribución de la celda al valor del estadígrafo o estadístico chi-cuadrado es 3,26667 ≈ 3,27, el cual se calcula a partir de la expresión (frecuencia observada-frecuencia esperada)^2/frecuencia esperada.
Representación gráfica de las distribuciones empíricas de frecuencias bivariadas o conjuntas de dos variables discretas.
Al igual que para el caso univariado, se pueden representar gráficamente las distribuciones de frecuencias (absolutas y relativas) bivariadas o conjuntas de dos variables discretas, pero ahora como hay dos variables, los gráficos se confeccionan usando un espacio tridimensional: dos dimensiones para los valores de las dos variables y otra para las frecuencias. Los tipos de gráficos que pueden hacerse con el Statgwin son los tres gráficos siguientes: Diagrama de barras (en inglés, Barchart), Gráfico de Mosaico (en inglés, Mosaico Plot) y el Gráfico (en inglés, Skychart). El Skychart es un gráfico en tres dimensiones, los otros no. Para obtener estos tres gráficos con el Statgwin, se usa el botón Opciones gráficas (botón azul) de la barra de herramientas que aparece al lado del botón Opciones tabulares (botón amarillo). Las opciones gráficas son tres, las dos primeras opciones aparecen activadas, que son los dos gráficos que salen cuando se procesa el fichero inicialmente. La última opción corresponde al Skychart, o sea, al gráfico en tres dimensiones.
Contraste de Chi-cuadrado para probar la independencia estadística de dos variables usando el Statgwin.
Este constraste (prueba, test o dócima) Chi-cuadrado ó χ2 permite determinar si dos variables X1 y X2 son o no independientes. En esta prueba o contraste, las hipótesis son:
H0: X1 y X2 son estadísticamente independientes.
H1: X1 y X2 no son estadísticamente independientes.
Para probar la independencia estadística de estas dos variables X1 y X2 usando el Statgwin, se usa la tercera opción de las Opciones tabulares, es decir, la opción Contraste de Chi-cuadrado. En la ventana correspondiente a esta opción, aparece el valor del estadígrafo de prueba (Chicuadrado ó χ2), los grados de libertad (GL) y el valor de probabilidad (P-Value). Si el valor de probabilidad es mayor que el nivel de significación de la prueba (α), entonces se acepta H0 y de este modo demostramos que las variables X1 y X2 son independientes. Si el valor de probabilidad es menor que el nivel de significación de la prueba (α), entonces se rechaza H0 y de este modo demostramos que las variables X1 y X2 no son independientes, o lo que es lo mismo, que las variables X1 y X2 son dependientes.
Observación: Esta prueba o contraste Chi-cuadrado ó χ2 es una prueba aproximada ya que su estadígrafo que se denota por χ2 (Chi-cuadrado) sigue, bajo el supuesto de que H0 es cierta, una distribución aproximadamente χ2 con (k-1)(m-1) grados de libertad.
Si cada una de las variables X1 y X2 tuviera sólo dos valores distintos o diferentes y el tamaño de la muestra (n) fuera menor que 100, en esta misma ventana también aparecerían los resultados de la prueba exacta de Fisher, que como su nombre indica, es una prueba exacta, pero la misma sólo es aplicable en ese caso particular.
Cálculo del coeficiente de correlación lineal de dos variables usando el Statgwin.
Para calcular el valor del coeficiente de correlación lineal de las dos variables X1 y X2 usando el Statgwin, se usa la cuarta opción de las Opciones tabulares, es decir, la opción Resumen estadístico. En la ventana correspondiente a esta opción, aparece el valor del coeficiente de correlación lineal R de Pearson de las dos variables X1 y X2, el cual se conoce también con el nombre de coeficiente de correlación lineal de las dos variables X1 y X2, el cual fue definido anteriormente y denotado por la letra r. Para el ejemplo que estamos analizando, el valor de r que da el Statgwin es r = 0,6193. El valor calculado a partir de la fórmula empleada anteriormente es r = 0,6301. Hay una pequeña diferencia entre ambos resultados. Esta diferencia se debe a que en el cálculo de las desviaciones típicas o estándar, el Statgwin emplea una fórmula que, en lugar de dividir por n, se divide por (n-1). Cuando el tamaño de la muestra (n) es grande (generalmente mayor que 50), la diferencia es muy pequeña y puede ser despreciable o no significativa. Sin embargo, cuando el tamaño de la muestra (n) no es muy grande (generalmente menor que 50), la diferencia no es pequeña y puede ser apreciable o significativa.
Observación: En la ventana correspondiente a la opción Resumen estadístico, el Statgwin no nos da el valor de la covarianza entre las variables X1 y X2, pero usando otro procedimiento, el Statgwin sí nos da el valor de la covarianza y el valor del coeficiente de correlación lineal de las dos variables. Para ello se procesan los datos del fichero usando el siguiente procedimiento: Se ejecuta el comando Descripción, se toma la opción Datos numéricos (primera opción) y después, en el submenú que aparece, se toma la opción Análisis multidimensional (segunda opción). A continuación entramos las dos variables (X1 y X2) y procesamos (Aceptar). Después usamos las Opciones tabulares y seleccionamos las opciones Covarianzas y Correlaciones (sexta y cuarta opción respectivamente).
En la ventana correspondiente a la opción Correlaciones, aparece una tabla que muestra tres valores en la intersección de cada par de variables diferentes. El primer valor representa el valor del coeficiente de correlación lineal estimado de las dos variables involucradas. Como sabemos, el coeficiente de correlación lineal va de -1 a +1 y mide la fuerza o fortaleza de la relación lineal existente entre las variables. El segundo valor, que aparece entre paréntesis, representa el número de pares de observaciones o datos utilizados para el cálculo de ese coeficiente de correlación lineal. El tercer valor es un valor de probabilidad (P-valor) que nos permite determinar la significación estadística del verdadero coeficiente de correlación lineal de las variables involucradas (ρ), o sea, permite determinar si el coeficiente de correlación lineal verdadero ρ entre esas dos variables involucradas es estadísticamente igual a cero o desigual de cero (es la prueba de hipótesis para decidir entre H0: ρ = 0 σ H1: ρ ≠0). Los valores de probabilidad (P-valores) por debajo del nivel de significaciσn de la prueba (α), indican que hay significaciσn estadística para el verdadero coeficiente de correlación lineal de las variables involucradas, o sea, ρ ≠0, y los valores por encima del nivel de significación de la prueba (α), indican que no hay significación estadística para el verdadero coeficiente de correlación lineal de las variables involucradas, o sea, ρ = 0. Para el ejemplo que se viene analizando, como sσlo hay dos variables, los tres valores en el orden en que aparecen en la tabla son 0,6193, (25) y 0,0010. Por tanto, el valor del coeficiente de correlación lineal entre las variables X1 y X2 es 0,6193, se calculó con 25 pares de observaciones y el valor de P = 0,0010 nos indica que se rechaza H0: ρ = 0, o sea, se acepta H1: ρ ≠0. Por tanto, podemos decir que existe una relaciσn o correlación lineal significativa entre ambas variables.
Observe que en la intersección de las mismas variables no aparece ninguno de los tres valores vistos anteriormente. Esto se debe a que el valor del coeficiente de correlación lineal de una variable con ella misma es igual a 1, independientemente del número de pares de observaciones con que se calcule. Además, como r toma el valor máximo (1), en la prueba o dócima de la significación estadística de ρ, se demuestra que siempre se cumple que ρ ≠0, y por tanto, siempre ρ es significativo.
El valor de la covarianza se obtiene en la ventana correspondiente a la opción Covarianzas. En esa ventana aparece una tabla que muestra dos valores en la intersección de cada par de variables. El primer valor representa el valor de la covarianza estimada de las dos variables involucradas. El segundo valor, que aparece entre paréntesis, representa el número de pares de observaciones o datos utilizados para el cálculo de esa covarianza.
Observe que en la intersección de las mismas variables, sí aparecen los dos valores vistos anteriormente. Esto se debe a que el valor de la covarianza de una variable con ella misma es igual a la varianza de dicha variable. Por lo tanto, esta tabla no permite obtener las varianzas y covarianzas de las variables.
Para el ejemplo que se viene analizando, como sólo hay dos variables, la varianza de la variable X1 es igual a 1,41, la varianza de la variable X2 es igual a 0,773333 y la covarianza de las variables X1 y X2 es igual a 0,646667. Todas estas medidas se calcularon con 25 pares de observaciones o datos.
Hasta aquí, el contenido presentado se ha referido al caso en que las dos variables son cuantitativas discretas. A continuación estudiaremos los dos restantes casos.
Caso en que las dos variables son cuantitativas continuas.
Se obtuvieron observaciones o datos correspondientes a 32 personas en cuanto a su edad X1 (en años) e ingresos mensuales X2 (en miles de pesos). Los resultados obtenidos son los siguientes:
Observaciones o datos de las variables X1 y X2 medidas simultáneamente
X1 | 70 | 41 | 52 | 60 | 42 | 60 | 37 | 58 | 28 | 32 | 44 | 27 | 38 | 72 | 36 | 46 |
X2 | 15 | 22 | 24 | 16 | 11 | 25 | 19 | 25 | 12 | 14 | 17 | 17 | 12 | 19 | 13 | 20 |
Continuación de la tabla de datos | ||||||||||||||||
X1 | 69 | 48 | 21 | 52 | 39 | 46 | 79 | 57 | 48 | 54 | 43 | 64 | 39 | 56 | 35 | 65 |
X2 | 20 | 21 | 13 | 19 | 11 | 21 | 25 | 20 | 15 | 21 | 18 | 17 | 16 | 21 | 16 | 23 |
En este caso, ambas variables son continuas. Debemos primero construir la distribución empírica de frecuencias para cada una de las variables por separado, luego anotar o imprimir las clases y las marcas de clase de la distribución empírica de frecuencias de cada variable, después crear en el fichero dos nuevas variables, asignándole como datos o valores a estas variables, las marcas de clase de los datos de las variables originales y finalmente construir la distribución empírica de frecuencias absolutas bivariadas o conjuntas de estas dos nuevas variables que son discretas.
Representación gráfica
En el caso univariado o unidimensional y para una variable continua, las frecuencias se representaban por áreas de rectángulos en el histograma. Ahora en el caso bivariado o bidimensional y para dos variables continuas, las frecuencias se representan por volúmenes de paralelepípedos en el estereograma (histograma en el espacio de tres dimensiones). Por lo tanto, utilizaremos la tercera opción del botón Opciones gráficas, es decir, la opción Gráfico tridimensional.
Caso en que una variable es discreta y la otra es continua
Vamos a considerar ahora este caso, en que tomaremos, por ejemplo, como primera variable (X1), el número de hijos (variable discreta o discontinua) de un cierto número de familias, y como segunda variable (X2), los ingresos mensuales (variable continua) de dichas familias.
Como en los dos casos anteriores, la notación sería para los valores observados:
x11, x12, x13… x1n y x21, x22, x23… x2n
Sea Y1 la variable cuyos valores son los valores distintos de la variable discreta X1. Es evidente que Y1 es una variable discreta. Representemos a los valores de Y1 por y11, y12, y13,…,y1 k.
Construyamos ahora la distribución empírica de frecuencias absolutas de la variable continua X2. Representemos a sus clases o intervalos de clase por: y´20 – y´21, y´21 – y´22,…, y´2 m-1 – y´2 m
Hasta este momento en la tabla de frecuencias bivariadas, bidimensionales o conjuntas, aparecen por un lado los valores distintos de la variable discreta X1, o sea los valores de Y1, y por otro las clases o los intervalos de clase de la variable continua X2 .
Sea Y2 la variable cuyos valores son las marcas de clase de la distribución empírica de frecuencias absolutas de la variable continua X2. Es evidente que Y2 es una variable discreta ya que le hemos asignado valores aislados o individuales. Representemos a los valores de Y2 por y21, y22, y23,…,y2 m.
Si ahora en la tabla, se sustituye a cada clase o intervalo de clase de la variable continua, por la marca de clase correspondiente, o sea, se sustituyen a las clases por los valores de Y2, la tabla de frecuencias adquiere el mismo aspecto que una tabla de frecuencias de dos variables discretas.
Nada hay de nuevo con relación a las frecuencias empíricas (absolutas y relativas) conjuntas, las frecuencias (absolutas y relativas) marginales así como las frecuencias empíricas (absolutas y relativas) acumuladas, que son análogas a las consideradas en el caso de dos variables discretas.
Lo diferente, en este caso, es la representación gráfica, que, puede decirse, es una mezcla de los dos casos anteriores.
Cálculo de las medidas de posición y de dispersión de cada variable (una discreta y otra continua) por separado a partir de una distribución empírica de frecuencias (absolutas o relativas) bivariadas de ambas variables
Para el caso en que una variable sea discreta y la otra continua, las fórmulas de los estadígrafos de cada variable por separado, calculados a partir de los datos agrupados o clasificados, son las mismas que para el caso bivariado discreto, sólo que ahora en las fórmulas de los estadígrafos de la variable que es continua se emplean las marcas de clase de dicha variable y las frecuencias (absolutas o relativas) de dichas clases. Lógicamente, para la variable que es continua, también serían cálculos aproximados ya que estamos usando las marcas de clase de la variable en lugar de los valores o datos verdaderos de dicha variable.
Para el cálculo de la covarianza y el coeficiente de correlación, las fórmulas son similares al caso bivariado discreto, sólo que ahora en las fórmulas de la covarianza y el coeficiente de correlación lineal, se emplean las marcas de clase de la variable que es continua y las frecuencias (absolutas o relativas) bivariadas o conjuntas de los valores de la variable discreta Y1 y las marcas de clase de la variable continua. Lógicamente, también serían cálculos aproximados.
CONCLUSIONES
Con el desarrollo de la presente metodología, arribamos a:
- El tratamiento teórico dado a los contenidos ofrece ventajas para los estudiantes en la asimilación de los mismos.
- Los resultados obtenidos en las Prácticas de Laboratorio, nos permite aseverar lo provechoso del uso de paquete de programas estadístico, como herramienta que de una forma racional, amena y sencilla permite resolver problemas de aplicación relacionados con la temática tratada.
BIBLIOGRAFÍA
Cansado, E. Estadística General. Ediciones Revolucionaria. La Habana, 1976, pp. 107-124.
Gmurman, V.E. Introducción a la teoría de las probabilidades y estadística matemática. Editorial MIR. Moscú, 1971.
Paquete de programas Statgrapics V 2.1 y el Help (en inglés), Año 1984.
Paquete de programas Statgrapics V 5.1 en español y el Help en inglés, Año 1999.
Rolando Martínez Marrero
Francisco Javier Pérez Santos
Israel Tamayo Cruz (Ponente)
Universidad de Holguín "Oscar Lucero Moya"
Departamento Docente de Matemática
Facultad de Informática y Matemática
Av. XX Aniversario s/n. Piedra Blanca. Holguín. GP 57. CP 80100. Cuba
Página anterior | Volver al principio del trabajo | Página siguiente |