Se suele representar por MST, se le denomina varianza total o cuadrados medios totales, es también un cociente y al numerador se le llama suma de cuadrados total y se representa por SST, y el denominador (kn -1) grados de libertad.
Los resultados de un anova se suelen representar en una tabla como la siguiente:
Fuente de variación | G.L. | SS | MS | F |
Entre grupos Tratamientos | k-1 | SSA | SSA/(k-1) | MSA/MSE |
Dentro Error | (n-1)k | SSE | SSE/k(n-1) | |
Total | kn-1 | SST |
Y el cociente F se usa para realizar el contraste de la hipótesis de medias iguales. La región crítica para dicho contraste es F > F(k-1,(n-1)k)a
Algunas propiedades
Es fácil ver en la tabla anterior que
GLerror+ GLtrata = (n – 1) k + k – 1 = nk – k + k – 1 = nk – 1 = GLtotal
No es tan inmediato, pero las sumas de cuadrados cumplen la misma propiedad, llamada identidad o propiedad aditiva de la suma de cuadrados:
SST = SSA + SSE
El análisis de la varianza se puede realizar con tamaños muestrales iguales o distintos, sin embargo es recomendable iguales tamaños por dos motivos:
La F es insensible a pequeñas variaciones en la asunción de igual varianza, si el tamaño es igual.
Igual tamaño minimiza la probabilidad de error tipo II.
3. Modelos de análisis de la varianza
El anova permite distinguir dos modelos para la hipótesis alternativa:
Modelo I o de efectos fijos en el que la H1 supone que las k muestras son muestras de k poblaciones distintas y fijas.
Modelo II o de efectos aleatorios en el que se supone que las k muestras, se han seleccionado aleatoriamente de un conjunto de m>k poblaciones.
Un ejemplo de modelo I de anova es que se asume que existen cinco poblaciones (sin tratamiento, con poca sal, sin sal, etc.) fijas, de las que se han extraído las muestras.
Un ejemplo de modelo II sería: un investigador está interesado en determinar el contenido, y sus variaciones, de grasas en las células hepáticas de cobayas; toma del animalario 5 cobayas al azar y les realiza, a cada una, 3 biopsias hepáticas.
La manera más sencilla de distinguir entre ambos modelos es pensar que, si se repitiera el estudio un tiempo después, en un modelo I las muestras serían iguales (no los individuos que las forman) es decir corresponderían a la misma situación, mientras que en un modelo II las muestras serían distintas.
Aunque las asunciones iniciales y los propósitos de ambos modelos son diferentes, los cálculos y las pruebas de significación son los mismos y sólo difieren en la interpretación y en algunas pruebas de hipótesis suplementarias.
Análisis de la varianza de dos factores
Es un diseño de anova que permite estudiar simultáneamente los efectos de dos fuentes de variación.
En cualquier caso, el investigador puede estar interesado en estudiar si hay, o no, diferencia en la evolución según el sexo. En un anova de dos vías se clasifica a los individuos de acuerdo a dos factores (o vías) para estudiar simultáneamente sus efectos. En este ejemplo se harían cinco grupos de tratamiento para los hombres y otros cinco para las mujeres, en total diez grupos; en general, si el primer factor tiene a niveles y el segundo tiene b, se tendrán ab muestras o unidades experimentales, cada una con n individuos o repeticiones.
Una observación individual se representa como:
El primer subíndice indica el nivel del primer factor, el segundo el nivel del segundo factor y el tercero la observación dentro de la muestra. Los factores pueden ser ambos de efectos fijos (se habla entonces de modelo I), de efectos aleatorios (modelo II) o uno de efectos fijos y el otro de efectos aleatorios (modelo mixto). El modelo matemático de este análisis es:
Donde es la media global, i o Ai b el efecto del nivel i del 11 factor, j o Bj e el efecto del nivel j del 2º factor y ijk las desviaciones aleatorias alrededor de las medias, que también se asume que están normalmente distribuidas, son independientes y tienen media 0 y varianza 2.
A las condiciones de muestreo aleatorio, normalidad e independencia, este modelo añade la de aditividad de los efectos de los factores.
A los términos ( )ij, (AB)ij, ( B)ij, se les denomina interacción entre ambos factores y representan el hecho de que el efecto de un determinado nivel de un factor sea diferente para cada nivel del otro factor.
Para entender mejor este concepto de interacción veamos un ejemplo sencillo sobre un anova de dos factores, cada uno con dos niveles: supóngase un estudio para analizar el efecto de un somnífero teniendo en cuenta el sexo de los sujetos. Se eligen al azar dos grupos de hombres y otros dos de mujeres. A un grupo de hombres y otro de mujeres se les suministra un placebo y a los otros grupos el somnífero. Se mide el efecto por el tiempo que los sujetos tardan en dormirse desde el suministro de la píldora.
Se trata de un anova de dos factores (sexo y fármaco) fijos, cada uno con dos niveles (hombre y mujer para el sexo y somnífero y placebo para el fármaco). Los dos tipos de resultados posibles se esquematizan en la figura
En la figura A se observa que las mujeres tardan más en dormirse, tanto en el grupo tratado como en el grupo placebo (hay un efecto del sexo) y que los tratados con placebo tardan más en dormirse que los tratados con somnífero en ambos sexos (hay un efecto del tratamiento). Ambos efectos son fácilmente observables.
Sin embargo en la figura B es difícil cuantificar el efecto del somnífero pues es distinto en ambos sexos y, simétricamente, es difícil cuantificar el efecto del sexo pues es distinto en ambos grupos de tratamiento. En este caso, se dice que existe interacción.
Podría, incluso, darse el caso de que se invirtieran los efectos de un factor para los distintos niveles del otro, es decir, que las mujeres se durmieran antes con el somnífero y los hombres antes con el placebo.
La interacción indica, por tanto, que los efectos de ambos factores no son aditivos: cuando se dan juntos, su efecto no es la suma de los efectos que tienen cuando están por separado, por lo que, si en un determinado estudio se encuentra interacción entre dos factores, no tiene sentido estimar los efectos de los factores por separado. A la interacción positiva, es decir, cuando el efecto de los factores actuando juntos es mayor que la suma de efectos actuando por separado, en Biología se le denomina sinergia o potenciación y a la interacción negativa inhibición. En el ejemplo de la figura B, se diría que el ser mujer inhibe el efecto del somnífero, o que el ser hombre lo potencia (según el sexo que se tome como referencia).
4. Análisis de Varianza a una vía: Diseño completamente aleatorizado
Hay varias formas en las cuales puede diseñarse un experimento ANOVA. Quizás el más común es el diseño completamente aleatorizado a una vía. El término proviene del hecho que varios sujetos o unidades experimentales se asignan aleatoriamente a diferentes niveles de un solo factor. Por ejemplo: varios empleados (unidades experimentales) pueden seleccionarse aleatoriamente para participar en diversos tipos (niveles diferentes) de un programa de capacitación (el factor).
El análisis de varianza se basa en una comparación de la cantidad de variación en cada uno de los tratamientos. Si de un tratamiento al otro la variación es significativamente alta, puede concluirse que los tratamientos tienen efectos diferentes en las poblaciones.
- Esta variación entre el número total de las 14 observaciones. Esto se llama variación total.
- Existe variación entre los diferentes tratamientos (muestras). Esto se llama variación entre muestras.
- Existe variación dentro de un tratamiento dado (muestra). Esto se denomina variación dentro de la muestra.
5. Fundamentos del ANOVA
Para determinar si tratamientos diferentes tienen efectos diferentes en sus respectivas poblaciones, se hizo una comparación entre la variación dentro de las muestras y la variación entre muestras. La variación de los puntajes de una muestra dada puede ser productiva por una variedad de factores: la inhabilidad innata de los empleados en dicha muestra, la motivación personal, los esfuerzos individuales y la destreza, el factor suerte, y una gran cantidad de otras circunstancias aleatorias. El tratamiento en sí mismo no producirá ninguna variación en las observaciones dentro de alguna muestra, debido a que todas las observaciones en dicha muestra reciben el mismo tratamiento.
Es un asunto diferente con la variación entre muestras. La variación en los puntajes entre muestras puede producirse por el mismo factor aleatorio que la variación dentro de una muestra, mas toda influencia adicional que puedan tener los tratamientos diferentes. Puede existir un efecto tratamiento entre muestras debido a que cada muestra es un tratamiento diferente.
Efecto del tratamiento: como las muestras diferentes tienen tratamientos distintos, la variación entre las muestras puede ser producida por los efectos de tratamientos diferentes.
Si un efecto del tratamiento existe, puede detectarse comparando la variación entre las muestras y la variación dentro de las muestras. Si la variación entre las muestras es significativamente mayor que la variación dentro de las muestras, un fuerte efecto de tratamiento está presente. Esta diferencia entre la variación entre muestras y variación dentro de las muestras es precisamente lo que mide el análisis de varianza. El análisis de varianza es una relación de la variación entre muestras con la variación dentro de las muestras. Si los tratamientos diferentes tienen efectos diferentes, la variación entre muestras crecerá, haciendo que la razón aumente. Esta razón se basa en la razón F presentada en la secciona anterior.
La razón F tal y como se utiliza en ANOVA: La razón F es una razón de la variación entre muestras y la variación dentro de las muestras.
De nuevo, la variación entre muestras puede ser producida en parte por tratamientos diferentes. La variación dentro de una muestra dada puede ser producida solo por factores aleatorios como la suerte, la destreza, y la motivación de los empleados. Dicha variación es independiente del tratamiento y es el resultado solo del error de muestreo aleatorizado dentro de la muestra.
La razón F: cuando las medias poblacionales son diferentes, el efecto del tratamiento está presente y las desviaciones entre las muestras serán grandes comparadas con la desviación del error dentro de una muestra. Por tanto, el valor F aumentara, lo cual es una razón de la variación del tratamiento y de la variación del error.
La variación total es igual a la variación producida por los tratamientos diferentes, más la variación producida por elementos de error aleatorios dentro de los tratamientos, como la destreza, la suerte y la motivación. Es decir,
Variación Total = variación del tratamiento + variación del error
6. Contrastes de hipótesis en un análisis de la varianza de dos factores
Con el análisis de3 varianza a una vía, se pensó que solo un factor influenciaba las unidades experimentales. Sin embargo, con frecuencia se encuentra que una segunda influencia exterior puede impactar las unidades experimentales. Por ejemplo, el interés puede ser comparar la productividad promedio de los tres tipos de maquinas (tratamientos). Sin embargo, se observa que al probar estas maquinas, la destreza del operador y su experiencia pueden afectar la producción de la maquina, produciendo confusión sobre cuál máquina es realmente mejor. Así, para obtener un panorama no contaminado y claro de la capacidad de la maquina, se debe eliminar de alguna manera o corregir, la influencia del operador sobre la producción final. Esta consideración simultánea de las dos fuerzas requiere del análisis de varianza a dos vías.
Para obtener una medida decisiva de la capacidad de la maquina, se debe bloquear el factor externo, colocando las observaciones en grupos homogéneos con base en los años de experiencia. Así, las observaciones se clasifican tanto por bloques como por tratamientos. El propósito del bloqueo es reducir la variación dentro de un tratamiento. Este diseño experimental se llama diseño aleatorio en bloques.
Si los bloques se realizan de manera efectiva y se basan en un factor que verdaderamente afecte la productividad, se obtiene una medida más pura del efecto del tratamiento. Sin embargo, si el factor seleccionado para el bloqueo no afecta la productividad, los resultados pueden ser engañosos. Es importante determinar si el bloqueo se hace o no correctamente, y si el factor en el que se basa el bloqueo si tiene cierto impacto.
Con el análisis de varianza a dos vías, la suma de los cuadrados total se divide en tres partes: la suma de cuadrados del tratamiento (SCTR), suma de cuadrados del error, y la suma de cuadrados de bloques (SCBL).
SCT y SCTR se calculan de la misma forma que en el análisis de varianza a una vía. Sin embargo SCE se subdivide en una medida para SCE y SCBL.
Del mismo modo que se hizo en el anova de una vía, para plantear los contrastes de hipótesis habrá que calcular los valores esperados de los distintos cuadrados medios. Los resultados son:
Modelo I
Por lo tanto, los estadísticos MSAB/MSE, MSA/MSE y MSB/MSE se distribuyen como una F con los grados de libertad correspondientes y permiten contrastar, respectivamente, las hipótesis:
No existe interacción (MSAB/MSE)
No existe efecto del primer factor, es decir, diferencias entre niveles del primer factor (MSA/MSE)
No existe efecto del segundo factor (MSB/MSE)
Si se rechaza la primera hipótesis de no interacción, no tiene sentido contrastar las siguientes. En este caso lo que está indicado es realizar un análisis de una vía entre las ab combinaciones de tratamientos para encontrar la mejor combinación de los mismos.
Bibliografía
V. Abraira, A. Pérez de Vargas, "Métodos Multivariantes en Bioestadística"., Ed. Centro de Estudios Ramón Areces. 1996.
ALLEN L., WEBSTER, "Estadística aplicada a los negocios y la economía", Editorial McGraw-Hill, Tercera Edición, 2005
Autor:
Alcalá, Gustavo
Dorta, David
Goicoechea, Diego
República Bolivariana de Venezuela
Ministerio de Educación Superior
Universidad Santa María
Escuela de Ciencias Económicas y Sociales
ESTADÍSTICA III
CARACAS, JULIO DE 2008
Página anterior | Volver al principio del trabajo | Página siguiente |