El análisis de varianza es una técnica que se puede utilizar para decidir si las medias de dos o más poblaciones son iguales. La prueba se basa en una muestra única, obtenida a partir de cada población. El análisis de varianza puede servir para determinar si las diferencias entre las medias muestrales revelan las verdaderas diferencias entre los valores medios de cada una de las poblaciones, o si las diferencias entre los valores medios de la muestra son más indicativas de una variabilidad de muestreo.
Si el valor estadístico de prueba (análisis de varianza) nos impulsa a aceptar la hipótesis nula, se concluiría que las diferencias observadas entre las medias de las muestras se deben a la variación casual en el muestreo (y por tanto, que los valores medios de población son iguales). Si se rechaza la hipótesis nula, se concluiría que las diferencias entre los valores medios de la muestra son demasiado grandes como para deberse únicamente a la casualidad (y por ello, no todas las medias de población son iguales).
Los datos para el análisis de varianza se obtienen tomando una muestra de cada población y calculando la media muestral y la variancia en el caso de cada muestra.
Supuestos
Existen tres supuestos básicos que se deben satisfacer antes de que se pueda utilizar el análisis de variancia.
1) Las muestras deben ser de tipo aleatorio independiente.
2) Las muestras deben ser obtenidas a partir de poblaciones normales.
3) Las poblaciones deben tener variancias iguales
Procedimiento para calcular una varianza muestral
El análisis de varianza, como su nombre lo indica, comprende el cálculo de varianzas. La varianza de una muestra es el promedio de las desviaciones elevadas al cuadrado de la media del grupo. Simbólicamente, esto se representa de la siguiente manera:
varianza de la muestra= s2=xi-x2n-1
Cabe observar que se debe utilizar n – 1, ya que se está trabajando con datos muestrales. De ahí que, para obtener la varianza muestral, el procedimiento sea el siguiente:
1) Calcular la media muestral
2) Restar la media de cada valor de la muestra.
3) Elevar al cuadrado cada una de las diferencias.
4) Sumar las diferencias elevadas al cuadrado.
5) Dividir entre n – 1
Estimación interna de varianza (within estímate) sw2
Aunque parezca extraño un examen de las varianzas puede revelar si todas las medias de la población son iguales o no. El análisis de varianza utiliza dos métodos un poco diferentes para estimar las varianzas de la población (iguales). Si las dos estimaciones son aproximadamente iguales, esto tiende a confirmar H0; si una de las dos estimaciones es mucho mayor que la otra, esto tiende a confirmar H1. Si la hipótesis nula es verdadera, entonces las muestras se habrán obtenido de poblaciones con medias iguales. Y como se supone que todas las poblaciones son normales y poseen variancias iguales, cuando H0 es verdadera se presenta una situación conceptualmente idéntica a otra en la que todas las muestras hayan sido tomadas realmente a partir de una población única. Si H0 es falsa, entonces las muestras provendrán de poblaciones que no presentan todas la misma media, sin embargo, cabe observar que, aún en ese caso, se debe suponer que las poblaciones son normales y tienen variancias iguales.
Una forma de calcular la varianza poblacional es sacar el promedio de las varianzas de las muestras. Es evidente que se podrá utilizar cualquiera de las varianzas muestrales, pero el promedio de todas ellas por lo general proporcionará la mejor estimación debido al mayor número de observaciones que representa. Como cada varianza muestral sólo refleja la variación dentro de una muestra en particular, la estimación de la varianza basada en el promedio de las varianzas muestrales se llama estimación interna de variancia. La estimación interna de variancia se calcula de la siguiente manera:
sw2=s12+s22+s32+..……….sk2k
Donde:
s12 = variancia de variancia de una muestra
s22 = variancia de variancia de dos muestras
s32 = variancia de variancia de tres muestras
sk2 = variancia de variancia de k muestras
k = número de muestras
Estimación intermediante de varianza (between estímate) sx2
Como se supone que las varianzas de la población son iguales, independientemente de si las medias lo son o no, la estimación interna de varianza no se altera por la verdad o falsedad de H0. Por tanto, no se puede utilizar por sí misma para determinar si las medias de la población podrían ser iguales. No obstante, sirve como una norma de comparación respecto a la cual puede evaluarse una segunda estimación llamada estimación intermediante de varianza. Esta segunda estimación es sensible a diferencias entre las medias de población.
La estimación interna de varianza sirve como una norma respecto a la cual se puede comparar la estimación intermediante de varianza.
La estimación de varianza entre muestras determina una estimación de las varianzas iguales de la población de una forma indirecta a través de una distribución de muestreo de medias. Recuérdese que si H0, es verdadera, esto equivale a tomar todas las muestras de la misma población normal. Además, por el Teorema del Límite Central, se sabe que la distribución de muestreo de medias, obtenida de una población normal, estará distribuida normalmente, y que la desviación estándar de la distribución de muestreo (raíz cuadrada de su varianza) está directamente relacionada con el tamaño de la desviación estándar de la población (raíz cuadrada de la varianza de la población). Es decir,
Ejemplos ilustrativos
1) Calcular la varianza muestral de 16, 19, 17, 16, 20, 19, 20
Solución:
Calculando la media aritmética se obtiene:
x=xin=16+19+17+16+20+19+207=1277=18,143
Llenando la tabla para obtener datos para reemplazar valores de la fórmula de la varianza se obtiene:
xi | (xi-x) | xi-x2 | |
16 | -2,143 | 4,592 | |
19 | 0,857 | 0,734 | |
17 | -1,143 | 1,306 | |
16 | -2,143 | 4,592 | |
20 | 1,857 | 3,448 | |
19 | 0,857 | 0,734 | |
20 | 1,857 | 3,448 | |
Total | 18,854 |
Reemplazando valores en la fórmula y realizando las operaciones respectivas se tiene:
s2=xi-x2n-1=18,8547-1=18,8546=3,14
Los cálculos en Excel se muestran en la siguiente figura:
2) Dado la siguiente tabla con datos acerca del peso en kg por 1,7 m de estatura
a) Calcular la estimación interna de variancia
b) Calcular la estimación intermediante de variancia
Solución:
Calculando las medias aritméticas se obtiene:
x=xin
x1=70+75+74+72+68+596=4186=69,667
x2=74+77+70+80+72+766=4496=74,833
x3=68+70+65+60+72+736=4086=68
x4=75+70+73+72+71+726=4336=72,167
Se llena la siguiente tabla:
Reemplaza los datos en la fórmula de la varianza se obtienen las varianzas de las 4 muestras.
s2=xi-x2n-1
Varianza de la muestra 1
s12=169,3345=33,867
Varianza de la muestra 2
s22=64,8345=12,967
Varianza de la muestra 3
s32=1185=23,6
Varianza de la muestra 4
s42=14,8335=2,967
a) Calculando la estimación interna de varianza se obtiene:
sw2=s12+s22+s32+…+sk2k
sw2=33,867+12,967+23,6+2,9674=73,4014=18,35
Nota: La estimación interna de varianza es la media aritmética de la varianzas.
b) Para calcular la estimación intermediante de varianza primero se calcular la varianza de las medias aritméticas
sx2=x-x2k-1
Para calcular la varianza de las medias aritméticas se calcula la media aritmética de las medias aritméticas, la cual es:
x=xik=69,667+74,833+68+72,1674=284,6674=71,167
Se llena la siguiente tabla:
x | x-x2 |
69,667 | 2,25 |
74,833 | 13,44 |
68 | 10,03 |
72,167 | 1 |
Total | 26,72 |
Se reemplaza los datos de la tabla para calcular varianza de las medias aritméticas
sx2=x-x2k-1=26,723=8,907
Finalmente se calcula es estimación intermediante de varianza, la cual queda:
sx2=n·sx2=6·8,907=53,44
Los cálculos en Excel se muestra la siguiente figura:
Autor:
Enviado por:
Mario Orlando Suárez Ibujes