- ¿Qué tamaño de muestra tomar?
- ¿Qué ocurre cuando se violan los supuestos del ANOVA?
- ¿Cuál es la comparación múltiple más conveniente?
- ¿Cuándo debo usar un ANOVA y cuando una prueba T?
- ¿Qué diferencias hay entre usar el test de Wilcoxon o el de Kruskall – Wallis?
- ¿Cómo se expresan los resultados del ANOVA?
- ¿Cómo se calcula la LD 50?
- ¿El análisis de las encuestas lleva alguna prueba estadística?
- ¿El Análisis de Componentes Principales se puede usar para formar grupos?
- ¿Cuándo realizo un análisis de Cluster por donde hago el corte del dendograma?
- Referencia
Al Lector:
Estas páginas no pretenden mostrar como realizar una u otra prueba estadística, esto aparece en los libros de texto. Solo, se quiere reflejar algunas de las interrogantes que tiene el investigador a la hora de presentar sus resultados.
Dedicamos estas páginas a dar respuesta a 10 de esas interrogantes y esperamos que el investigador encuentre en ellas la sugerencia que buscaba. Las respuestas han surgido a partir de la experiencia en las matemáticas aplicadas a la rama de la salud animal y la protección vegetal, por ello hemos denominado a estas páginas La Estadística del Agropecuario. Quisiéramos añadir que solo encontrará en ella 10 preguntas y mis respuestas, sirvan estas para que inicie una investigación en aquellas que sean de su interés.
Por otra parte, si usted es de los que considera que no todos los resultados deben ser acompañados de una prueba estadística, le diré que está usted en lo cierto. Pero, cerciore que efectivamente no es necesario aplicar estadística. La manera más sencilla de explicar la importancia de hacer un test es a través de este ejemplo basado en problemática planteadas a una muestra formada por un conjunto de sillas seleccionadas al azar de una población X.
Digamos que se quiere demostrar que Las sillas son rojas: Solo bastará con mostrar una foto de las sillas, todos verán que son rojas y una prueba estadística estaría de más. Ahora bien, si además quiere probar que las sillas son rojas…
- De intenso a Marrón: De un intervalo de confianza en que se mueve la muestra
- Como el melón: Compare con una muestra control (silla color melón)
- Y no son amarillas: Compare con una muestra de sillas amarillas
- Y más que otras sillas: Compare con otra u otras muestras de sillas rojas procedentes de otra población.
- Antes eran azules: Compare antes con después
- Con mayor probabilidad: Calcule la probabilidad de que la silla sea de otro color y pruebe que es mínima.
- En la mayoría de sus partes: Calcule la porción de silla que no es roja y pruebe que es mínima.
- Y esta otra silla que también es roja tiene una mancha amarilla. No haga estadística muestre las dos sillas, usted ha probado que una de las sillas no es roja, sino que tiene una mancha amarilla. Y aun así creo que sería muy ilustrativo si agrupa las sillas de su muestra y la de la mancha pertenece a otro grupo.
Si logre convencerlo que es necesaria la estadística, esperamos que también, las 10 interrogantes y respuestas sean de su utilidad. Le agradezco de antemano su elección y le pido me haga llegar aquellas interrogantes que por una razón u otra no están en este folleto.
La autora
Hemos querido dedicar un epígrafe a una pregunta indispensable en toda investigación. Esta pregunta es: ¿Qué tamaño de muestra tomar? o lo que es lo mismo, ¿Qué tamaño de muestra se necesita para…?.
Lo más importante de esta interrogante es tener bien claro el objetivo que se persigue, y una idea más o menos precisa de la dispersión de los datos. Las fórmulas para el cálculo del tamaño de muestra están descritas en la literatura de forma dispersa, por ello, se muestran a continuación para facilitarle el trabajo al investigador.
Estimar una proporción
Supongamos que se desea conocer con que probabilidad ocurre determinado fenómeno. Por ejemplo, se desea conocer que cantidad de pollos habría que pesar para determinar que más del 90% aumenta de peso al ingerir una determinada dieta (Hipótesis nula H0: P=0.90 y Hipótesis alternativa H1: P>0.90), en este o en casos similares, para calcular el tamaño de muestra mínimo, se emplea la fórmula:
Donde
- Z1-a es el percentil 1- a de la distribución normal para un nivel a de significación, según la tabla de percentiles:
P | 0.90 | 0.95 | 0.975 | 0.99 | 0.995 | 0.999 | 0.9995 |
Zp | 1.282 | 1.645 | 1.96 | 2.326 | 2.576 | 3.090 | 3.291 |
- P. Es la proporción esperada (0.90 en el ejemplo)
- d Es el error máximo permisible, esto es la cantidad mínima que aceptamos que el valor real se aleje del esperado sin resultar un error significativo.
En lo adelante, Z1-k P y d tienen igual significado al definido anteriormente.
Comparar dos proporciones
Cuando en lugar de estimar una proporción se comparan dos proporciones
(H0: P1=P2 y H1: P1¹ P2), se emplea la fórmula:
Siendo a el error de primer tipo (rechazar H0 siendo verdadera) también conocido como nivel de significación y b el error de segundo tipo (aceptar H0 siendo falsa).
Cuando las proporciones a comparar son pequeñas (del orden 10-3 o inferiores), se emplea la fórmula:
Estimar una media
La fórmula más empleada es la que se utiliza para estimar la media de una población con varianza S2 y un error máximo permisible d:
Comparación de la media con un valor
Si nuestro objetivo es probar la hipótesis Ho µ=µ0 se empleará la fórmula:
Comparar dos medias
Esto, puede extenderse a la prueba H0 : µ1=µ2
Comparar medias provenientes de a grupos
Si nuestro objetivo es comparar las medias de a grupos, se empleará la fórmula:
S2 varianza
d Error máximo permisible
a Nivel de significación
- 2(1-P) Probabilidad de una diferencia sea encontrada
significativa.
y valores de la tabla T de students.
n0 n inicial conocida.
Realizar un análisis de regresión
Para realizar un análisis de regresión en el cual se quiere que la correlación sea elevada, se debe tomar una n tal que:
r. coeficiente de correlación estimado.
¿QUÉ OCURRE CUANDO SE VIOLAN LOS SUPUESTOS DEL ANOVA?
En este acápite, no se ejemplifica como realizar e interpretar un análisis de varianza (ANOVA), pues esto aparece en los libros de texto. Sin embargo, es conveniente señalar que el ANOVA, a pesar de su nombre es una técnica que permite la comparación de medias de una característica en varias poblaciones. A esta característica, la denominamos variable dependiente o respuesta, porque depende de uno o varios factores, cada uno de ellos con varios niveles.
El ANOVA permitirá, en base a la respuesta obtenida en un experimento, decidir si los factores y sus niveles influyen o no en las medias de las poblaciones y en caso de que influyan permitirá estimar el efecto de las mismas.
Así por ejemplo, si se desea conocer si tres variedades de caña tienen igual rendimiento agrícola o si alguna de ellas es superior a las restantes, se realizará un ANOVA donde, la variable respuesta es el rendimiento y el factor es la variedad. Si además de evaluarse el rendimiento, se quiere probar el efecto que producen diferentes dosis de un determinado fertilizante, tendremos dos factores dosis y variedad. Si se quiere, se puede incluir la interacción de estos factores en el análisis. Los modelos matemáticos simple, doble y factorial que describen estos análisis serán descritos en otras de las interrogantes que responderemos posteriormente.
Ahora, nos ocupa ¿Qué ocurre si violamos los supuestos del ANOVA?, entendiendo por supuestos aquellas leyes cuyo cumplimiento es necesario para realizar un análisis estadístico. Al igual que la afirmación de que la suma de cuadrados de los catetos es igual al cuadrado de la hipotenusa es valida solamente si el triángulo es rectángulo, el ANOVA será valido solamente si las poblaciones cumplen los supuestos establecidos y que son:
– Normalidad: La variable respuesta sigue una distribución normal.
Esto se comprueba mediante la prueba de bondad de ajuste de Kolmogorov –smirnov, o la prueba de bondad de ajuste Chi –cuadrado, no se debe confundir este test con la prueba chi – cuadrado de independencia.
Si estas prueban aseguran la no normalidad de los datos, esto puede remediarse llevando los datos a otra escala, o lo que es lo mismo, usando transformaciones como logaritmo, arcseno, raíz cuadrada, etc. en dependencia de la naturaleza de los datos. Si ninguna de las transformaciones usuales logra la normalidad debemos tener en cuenta, que es conocido que si el tamaño de muestra es grande, la hipótesis de normalidad pierde importancia.
Por otra parte, la mayoría de las pruebas de distribución libre ("no paramétricas") no requieren de este supuesto de normalidad en los datos. En su lugar, estas pruebas casi siempre suponen que todos los grupos a comparar tienen la misma distribución (no necesariamente la normal).
– Homosedasticidad u homogeneidad de varianzas: Las varianzas de los grupos a comparar no deben diferir significativamente una de otra.
Este es el supuesto más importante, incluso los test no paramétrico exigen su cumplimiento. Sin embargo, pequeñas desviaciones de homogeneidad de varianza tampoco afectarán los resultados.
Existen diferentes métodos para comprobar si existe o no homogeneidad de varianza. Dado que los manuales de los paquetes estadísticos convencionales no se detienen en la explicación de los mismo, daremos una sencilla explicación de los más fáciles de aplicar:
Método Visual. Si hay varios grupos (> 3) se puede observar si existe heterogeneidad de varianza si existe una correlación (positiva) entre la media y la varianza.
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Puesto que el supuesto es que todos los grupos tiene igual varianzas, independientemente de las diferencias entre las medias, entonces al graficar las medias contra las varianzas de cada grupo no debe haber ninguna correlación (la línea entre los puntos debe ser plana).
Prueba F de Homogeneidad de Varianzas. Esta prueba estadística se usa para someter a prueba la hipótesis: Ho: s 12 = s 22 = s 32
a. Encontrar la varianza más grande y la más chica de todos los grupos a comparar
b. Calcular la razón de estas varianzas: Esta es la Fmax
c. Elegir un error (a ) aceptable de cometer errores (Tipo I), normalmente 0.05
d. El test supone que todos los grupos a comparar son del mismo tamaño. Si los grupos son distintos, usar el grupo con menor tamaño muestral (n) para calcular los grados de libertad (aunque este no sea el con menor o mayor varianza).
e. Mirar en la tabla de distribución acumulada de Fmax los valores de probabilidad con a número de grupos y n-1 grados de libertad (tamaño muestral más chico). Estos valores han sido calculados bajo el supuesto que las varianzas son homogéneas.
f. Si Fmax observado mayor que el de la tabla a un a = 0.05, entonces rechazamos la hipótesis nula que las varianzas son homogéneas ( existe heterogeneidad de varianzas)
Existen otras pruebas estadísticas para verificar si las varianzas son o no homogéneas, estas son Test de Bartlett (no muy recomendable pues es muy sensitiva a normalidad) y el Test C de Cocrhan.
Algunas transformaciones usadas para lograr normalidad logran también homogeneidad en las varianzas. Por ello, se recomienda que si los datos primarios no cumplen ninguno de los dos supuestos, se utilice una transformación y se trate de asegurar, en primer lugar homosedasticidad. De hecho, la principal razón para transformar los datos es para mejorar la homogeneidad de las varianzas y no para resolver el problema de normalidad, ya que este último es un problema menor en ANOVA.
Cuando la igual de varianza deseada, no se logra con transformaciones, recuerde entonces que aunque la prueba T exige normalidad tiene dos variantes, una para varianzas homogéneas y otra para varianzas heterogéneas.
– Independencia: Los grupos a comparar con independientes en cuanto a la variable respuesta que se analiza.
A diferencia de los otros dos supuestos, este no es una característica de la población, no depende de esta sino, de la forma en que se tome la muestra, pudiendo ser garantizado por el investigador. Recuerde también que la prueba T no pareada es una alternativa para comparar medias de grupos dependientes.
Vimos las alternativas al incumplimiento de supuestos en el ANOVA, pero
¿Por qué usar estas variantes? ¿Qué ocurre cuando se violan los supuestos?. El lector, debe tener presente que las decisiones estadísticas., son decisiones probabilísticas y por tanto, lo más importante no es tomar una decisión, sino además, conocer la probabilidad de equivocarse al tomar dicha decisión. Violar los supuestos del ANOVA significa que no podemos estar seguros que el Error Tipo I sea realmente a .
¿CUÁL ES LA COMPARACIÓN MÚLTIPLE MÁS CONVENIENTE?
Cuando un investigador realiza un análisis de varianza y resulta que existe diferencia significativa entre los tratamientos, es decir, que todos los tratamientos no tienen el mismo efecto sobre la variable de interés, requerirá conocer cuales de los tratamientos son significativamente diferentes. Este resultado se obtiene realizando pruebas de comparación múltiple, como son:
- Prueba de la Mínima Diferencia Significativa (LSD)
Muy útil para comparar dos medias aunque en ocasiones se utiliza para comparaciones múltiples, siempre y cuando la prueba F halla resultado significativa.
- Prueba de Rangos Múltiples de DUNCAN
Para realizar esta prueba no es estrictamente necesario realizar previamente la prueba F y que esta resulte significativa, aunque es recomendable realizarla a fin de evitar contradicciones. En ocasiones esta prueba se utiliza después de aplicar un test no paramétrico aunque estos test tienen sus propias pruebas de comparación múltiple.
- Prueba de Rangos Múltiples de Tukey
Este procedimiento es llamado también << diferencia significativa honesta>> porque es una de las pruebas más exigentes en el sentido que cuando los valores promedios son muy próximos no detecta diferencia significativa. Es posible que DUNCAN detecte diferencia significativa entre 12.5 y 13.1 y que Tukey no la detecte.
En este sentido las pruebas de comparación múltiple se pueden ordenar como sigue:
LSD DUNCAN Scheffe Tukey
Sentido en el que disminuye el error de tipo I.
Error de tipo I o error de primera clase: Error cometido al rechazar la hipótesis nula cuando la hipótesis nula es verdadera.
- Dunnet
Es otra prueba de comparación, útil cuando el investigador está interesado en conocer que tratamiento es diferente del testigo o control, es decir, se desea comparar en tratamiento control con cada uno de los tratamientos en estudio, sin necesidad de comparar los tratamientos entre si.
De manera general, la conveniencia de uno u otro test está dada por el objetivo que se persigue enfocado al Error de tipo I.
¿CUÁNDO DEBO USAR UN ANOVA Y CUANDO UNA PRUEBA T?
Esta pregunta va dirigida al cumplimiento de los supuestos del ANOVA, es decir, ¿Existe algún supuestos del ANOVA que no sea un supuesto para la prueba T?
Al igual que el ANOVA, la prueba T exige normalidad de los datos. Sin embargo, es posible que con menos de 30 unidades muestrales este supuesto se cumpla. De ahí que algunos digan que el ANOVA se utiliza a partir de n>30 y que la prueba T se puede utilizar con una n inferior aunque mayor que 15.
También se debe señalar que existe una prueba T para muestras dependientes (pareadas) y otra para muestras independientes (no pareadas). De la misma forma existe una prueba T para varianzas homogéneas y otra para varianzas no homogéneas.
¿QUÉ DIFERENCIAS HAY ENTRE USAR EL TEST DE WILCOXON O EL DE KRUSKALL – WALLIS?
Los métodos no paramétricos son los métodos más desconocidos de la estadística, lo más importante para estos y cualquier otro método es conocer cuando deben ser aplicados. Estos métodos no exigen normalidad de la variable, por tanto pueden ser probados con pocos datos e incluso con variables de naturaleza no continua.
Kruskall – Wallis es similar a un análisis de varianza, por tanto su objetivo es comparar medias de varios grupos y Wilcoxon es similar a la prueba T pareada por ello su objetivo es comparar medias de dos grupos dependientes.
Krukall – Wallis solo necesita que la variable esté en una escala ordinal, calcula diferencia entre grupos a partir de los rangos que toman sus valores en una lista ordenada de todos los datos. Por ejemplo si al tener una lista de 9 valores pertenecientes a 3 grupos diferentes y al ordenarlos obtenemos
Rango 1 2 3 4 5 6 7 8 9
Grupo A B C B A C C B A
La suma de rangos de es 15, la de B 14 y la de C 16, por lo que los rangos están distribuidos al azar y se concluye que no hay diferencia entre los grupos. Por el contrario, si los rangos, se distribuyen:
Rango 1 2 3 4 5 6 7 8 9
Grupo A A B A B C B C C
Entonces, Ho es falsa y se concluye que hay diferencia entre los grupos.
¿Cómo procede Kruskall – Wallis?
Calcula el estadígrafo
donde:
N : número total de elementos
Ri : Rango promedio del grupo i
ni: número de elementos del grupo i.
Se busca en una tabla el valor crítico Hc, si H>Hc rechazo la hipótesis nula y por tanto existe diferencia entre los grupos. Para conocer entre cual par de grupos está la diferencia se calcula para cada par de grupos 1 y 2:
Si |R1-R2|>CD entonces existe diferencia significativa entre 1 y 2.
Friedman es otro test utilizado para comparar varias medias, solo que es utilizado cuando estas medias son del mismo grupo. Por ejemplo, se comparan resultados de tres operadores que realizan una misma técnica X y luego la técnica control. Para comparar los resultados de una técnica y la otra empleó Kruskall – Wallis y para comparar los operadores dentro de la misma técnica empleó Friedman. Todo esto sería similar a un análisis de varianza bifactorial.
¿Cómo procede el Test de Friedman?
Por ejemplo, si se tienen 6 grupos de 3 elementos cada uno, se ordenan los 18 elementos y una vez ordenados, a los 6 primeros se les da rango 1, a los 6 siguientes se les da rango 2 y a los últimos 6 rango 3.
Para ver la tabla seleccione la opción "Descargar" del menú superior
Note que ahora se distribuyeron como 3 nuevos grupos de 6 elementos. A estos nuevos grupos se les llama niveles, para estos nuevos grupos se calcula.
Se calcula
donde:
N es el número de elementos por grupo (en el ejemplo 6)
R Rango de cada grupo
K número de niveles
=8.33
> Rechazo Ho, existe diferencia entre los grupos.
La comparación múltiple en este caso sería similar al caso de Kruskall – Wallis pero, CD se calcula como:
Por su parte, el test de Wilcoxon también opera con los rangos. Pongamos un ejemplo, para comprender su proceder: Un fisiólogo animal desea examinar si la tasa del corazón de los animales cambia en respuesta al decrecimiento de la temperatura. El investigador hace dos medidas de proporción del corazón para cada grupo: el primero a temperatura "normal" y un segundo a temperatura "baja". Los resultados para las medidas de proporción de corazón para 10 individuos son como sigue:
Para ver la tabla seleccione la opción "Descargar" del menú superior
Se suman los rangos positivos y negativos R+ = 48.5 y R- =-6.5
Se define Ts como el menor valor absoluto de la suma de rangos, en este caso Ts= 6.5. Se busca Tc de una tabla(Tc= 7 para el ejemplo) si Ts<Tc, como en este caso, entonces no hay diferencia significativa entre los grupos.
¿CÓMO SE EXPRESAN LOS RESULTADOS DEL ANOVA?
Una vez que se realiza cualquier análisis de comparación de medias, ya sea paramétrico o no paramétrico se expresan los resultados en tablas o gráficos. Anteriormente, se debió especificar en algún acápite (puede ser materiales y métodos) cual fue el método estadístico empleado, denotándolo por su nombre completo.
En este sentido recuerde identificar el objetivo de trabajo, el diseño empleado (completamente al azar, por bloques al azar, cuadrado latino etc). En el caso específico del análisis de varianza muestre además si es ANOVA simple (un solo factor) doble (dos factores si interacción) factorial (dos o más factores y su interacción).
En caso de un Modelo Lineal General (GLM) aunque muchos autores exponen si es de efecto fijo, efecto aleatorio o efecto mixto, desde los años 80 Fisher consideró que esta distinción era absolutamente innecesaria. De cualquier forma, hay que insistir en que los efectos no andan sueltos en la naturaleza como fijos o aleatorios, sino que según uno los considere de una forma u otra, serán diferentes las conclusiones a las que se arribe.
Para mayor comprensión de estos términos los explicaremos con ejemplos. En el modelo Yij=m i+eij tenemos el valor verdadero m i desconocido, y el error eij . Este valor verdadero m es naturalmente fijo, al ser inmutable en cada repetición hipotética del experimento , y el que las muestras se desvíen de ese valor se debe, indudablemente, a un error aleatorio que cambia en cada muestra.
Si por ejemplo, deseo medir la composición química del lomo de cerdo y utilizo cinco cerdos en el experimento, y tomo de cada cerdo dos muestras. Hay un efecto común en las dos muestras de cada cerdo, pero no es fijo, porque se supone que si se repite el experimento se toman otros cinco cerdos, el efecto cerdo es un efecto aleatorio.
Por poner otro ejemplo, supongamos que estoy interesado en medir el peso de cerdos alimentados con piensos distintos. Al provenir los cerdos de la misma madre, hay un efecto común a sus pesos debido a la madre. Siempre que se repita el experimento y los cerdos provengan de la misma madre, la madre será un efecto fijo, pero estos resultados solo son validos para esa madre y esos piensos. Si deseo evaluar el efecto madre, lo mejor es hacer un ANOVA que evalué ambas componentes (pienso y madre). Si las muestras se componen de varios cerdos hijos de la misma madre, tenemos un modelo mixto.
Ahora bien, si en cada repetición cambio de pienso, el pienso será un efecto aleatorio a elegir al azar de los muchos posibles. Entonces, las conclusiones pueden darse para todos los piensos. Por ejemplo, tomo cerdos de tres camadas, a la camada 1 le suministro un tipo de pienso 1, a la 2 el tipo 2 y a la 3 el tipo 3, puedo realizar el modelo Yijk= Pi+Cj+eijk donde P indica el efecto pienso y C el efecto camada.
Por otra parte, cuando sea necesario transformar los datos para lograr el supuesto de normalidad que exige el ANOVA, nunca ponga en sus resultados las medias transformadas, ponga la originales especificando en materiales y métodos que transformación uso. Las transformaciones más usadas son:
Logaritmo Log(y), útil cuando los datos crecen en sentido exponencial.
Raíz cuadrada útil cuando los números observados son pequeños 0-10.
Arcseno( cuando los datos son expresados en porciento.
Veamos ahora como mostrar los resultados. Suponga que se ha realizado un experimento para decidir la mejor dosis y el mejor tratamiento que produce los mayores rendimientos. Con los datos:
dosis | tratamiento | rendimiento | ||||
1 | A | 12.1 | 12.3 | 12.4 | 13 | 12.8 |
1 | B | 15.1 | 15.3 | 14.1 | 13.9 | 13.8 |
2 | A | 11.7 | 11.8 | 12 | 11.2 | 11.9 |
2 | B | 14 | 15.1 | 14.8 | 14.2 | 14.1 |
Se realiza un ANOVA bifactorial y resulta que la interacción dosis * tratamiento es significativa. Los resultados pueden ser expresados en tablas o en gráficos.
Por ejemplo:
El mejor rendimiento promedio se obtiene al aplicar el tratamiento B ya sea con una u otra dosis (tabla 1). ….<< Obviamente usted debe explicar además las implicaciones teóricas a las que esto conduce, así como confrontar con lo obtenido por otros autores >>.
Tabla 1. Efecto de la interacción dosis tratamiento sobre el rendimiento
Dosis | Tratamiento | Media±Error |
1 | A | 12.52±0.16 b |
1 | B | 14.44±0.31 a |
2 | A | 11.72±0.13 c |
2 | B | 14.44±0.21 a |
Medias con letras diferentes difieren para p<0.05
Note:
- El texto que refiere a la tabla siempre se coloca antes que esta.
- La tabla no lleva el nombre del text estadístico. Elimine de sus publicaciones identificaciones como Tabla 1. resultados del ANOVA. Las tablas y gráficos siempre se deben identificar con los resultados y/o con el objetivo que persiguen.
- Utilice estadígrafos que muestren la dispersión de la muestra. Convenientemente se utiliza media± Error Estándar.
Este resultado también puede ser mostrado en un gráfico:
Para ambas dosis existe una diferencia significativa entre los tratamiento, obteniéndose los mejores rendimientos con el tratamiento B (figura 1).
Figura 1. Efecto de la interacción dosis tratamiento sobre el rendimiento.
Note que si en lugar de usar los tratamientos como leyenda, hubiese usado las dosis, el efecto visual no sería el mismo (figura 2). Utilice siempre como leyenda aquel factor en el que quiero fijar la atención del lector.
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Figura 2. Efecto de la interacción dosis tratamiento sobre el rendimiento.
De todo ello, se concluye que usted debe verificar que gráfico es el más conveniente y que solo debe optar por graficar cuando:
- Se quiere mostrar proporciones de aumento o disminución de fenómenos simultáneos (Ejemplo comparar tratamientos)
- Es necesario exponer variaciones cualitativas o cuantitativas de fenómenos en el tiempo o en el espacio(ejemplo gráficos de dinámica)
- La comparación entre eventos no es evidente por simple inspección en una tabla.
- Resulta más importante obtener la idea de la variación global o la proporción de variación, que la precisión numérica del fenómeno.
Se ha traído este acápite porque el cálculo de la LD50 es una de las aplicaciones de la modelación que más se utiliza, sin embargo el procedimiento no siempre se hace de la forma adecuada.
La LD 50 o Dosis Letal media, no es más que la dosis individual de una sustancia que provoca la muerte del 50% de la población animal debido a la exposición a la sustancia por cualquier vía distinta a la inhalación. Normalmente expresada como miligramos o gramos de material por kilogramo de peso del animal.
Determinar el valor de LD50 es la manera estándar de determinar la toxicidad química y es un concepto que debe ser familiar a todos los que usan pesticidas. La dosis mortal exacta de cualquier producto químico es difícil de determinarse. Pero, es imprescindible en muchos casos, ya que incluso los materiales benignos como el agua, por ejemplo, pueden ser mortales. Hay muchas variables que podrían ser responsables de la muerte de cualquier animal dentro de un grupo especificado de organismos. Así, los científicos han tenido que determinar toxicidad relativa. Esto se expresa generalmente como nivel LD50.
El objetivo para calcular LD 50 puede ser demostrar que un producto no es toxico (un químico que se utilice como plaguicida) o por el contrario que una pequeña dosis es capaz de exterminar la población (un raticida)
Como hacer el cálculo
Por lo general, se tiene un experimento en el que se calculan de un total de animales cuantos mueren (porciento) a determinada dosis del producto. Digamos que evaluamos dosis de 30, 40, 50 y 60 mg de un determinado producto y con las dosis de 30 y 40 solo muere el 40% de la población, con 50 mg muere el 80% y con 60 muere toda la población.
Entonces, se busca la ecuación de mejor ajuste (modelo con mayor coeficiente de determinación R2) y por calibración (interpolación o despeje de la variable independiente x) se obtiene la LD 50. En este ejemplo se obtiene:
De lo cual debemos buscar dosis (x) para la cual y es 50. Esto es resolver la ecuación 50=0.05×2-2.3x+61. Las soluciones de esta ecuación son 5.42 y 40.57 aproximadamente. Sabemos que la dosis letal media debe estar entre 40 y 60 mg por lo que se decide que la LD 50 del producto es de 40.57.
En los resultados se expone la ecuación y la LD 50 resultante. Es conveniente, aunque no imprescindible incluir el gráfico.
Explicado de esta forma parece muy sencillo, sin embargo este método no es del todo efectivo porque en ocasiones las dosis son dadas en potencia de 10, lo cual hace que se trabaje con el Logaritmo y no con la dosis tal cual. También, se debe señalar que es necesario dar un intervalo de confianza para el LD50. De ahí que se halla ideado el análisis Probit
El análisis Probit se basa en la cuantificación probabilística de la vulnerabilidad ante efectos físicos de una magnitud determinada que se suponen conocidos.
La vulnerabilidad se expresa como el número de individuos que, previsiblemente pueden resultar afectados con un cierto nivel de daño por determinada causa. Muy aplicable al caso que nos ocupa que queremos saber cuando esa vulnerabilidad es el 50% de la población total.
Descripción del método Probit
El método permite determinar la proporción de población que resultara afectada en un punto dado. Consiste en asociar la probabilidad de un daño, con unas determinadas unidades Probit. El resultado es una curva de estas características:
Para ver el gráfico seleccione la opción "Descargar" del menú superior
O sea, se debe buscar una relación Y=a+b Ln(x) y el procedimiento que le sigue es similar al explicado, buscar la x para la cual Y=50.
Ejemplo:
Estudio de la toxicidad del clorhidrato de cocaína. | |||
Dosis en mg./Kg) por 20gr. | Número de ratones inyectados | Número de muertos | Porcentaje de mortalidad |
0,8 | 20 | 20 | 100 |
0,7 | 24 | 20 | 84 |
0,6 | 30 | 24 | 77 |
0,5 | 50 | 26 | 52 |
0,4 | 30 | 5 | 16,4 |
0,3 | 20 | 0 | 0 |
Se calcula el Logaritmo neperiano (Ln) de la dosis y se obtiene una ecuación lineal que relaciona el porcentaje de mortalidad con el Ln de la dosis.
Para ver el gráfico seleccione la opción "Descargar" del menú superior
En este caso la ecuación es Y=107.38Ln(dosis)+124.77
Buscar x tal que 50=107.38Ln(x)+124.77. De lo cual se obtiene que LD 50 es 0.498.
Ahora bien, cuando uno realiza la regresión mediante un paquete estadístico, se obtiene el error estándar de los coeficientes de la recta por lo cual se pueden construir las rectas límites inferior y superior y con ellas calcular los intervalos de confianza de la LD 50.
En este caso la recta limite inferior es y=99.18Ln(x)+118.78 y la recta limite superior es y=115.58Ln(x)+130.76 de ahí que (despejando x) el límite inferior de LD sea 0.497 y el superior 0.501.
Para mayor comprensión de este acápite realice la regresión con los datos de la tabla Estudio de la toxicidad del clorhidrato de cocaína y confronte sus resultados con los aquí expuestos.
¿EL ANÁLISIS DE LAS ENCUESTAS LLEVA ALGUNA PRUEBA ESTADÍSTICA?
Tal y como explicamos al inicio, la respuesta a la pregunta sobre si un análisis debe estar o no acompañado de una prueba estadística, está dada por el objetivo que se persigue. Por ello, le mostraremos el análisis de una encuesta sin incluir e incluyendo pruebas estadísticas.
Encuesta:
Objetivo de conocer el uso de Agentes Biológicos por parte del campesinado cubano.
1. Zona que ocupa está en un área Urbana __ Periurbana ____
2. Cantidad de Hectáreas _______
3. Usa usted controles Biológicos Si ___ No______
Se encuestan 100 personas y el conteo resultante fue:
1. Zona que ocupa está en un área Urbana _60_ Periurbana _40___
2. Cantidad de Hectáreas ___10 000 ha totales____
3. Usa usted controles Biológicos Si __90_ No___10___
Resultado. El 90% del campesinado utiliza los medios biológicos tanto en áreas urbanas como periurbanas.
Otros análisis
Otro enfoque es realizar respuestas cruzadas y analizarlas mediante una prueba Chi- cuadrado de independencia. Por ejemplo.
Zona | Uso de Controles Biológicos Si No | Total | |
Urbana | 52 | 8 | 60 |
Periurbana | 38 | 2 | 40 |
Total | 90 | 10 | 100 |
La prueba da un valor de chi 1.85 con una p=0.1735 lo cual indica que no se rechaza la hipótesis de dependencia, es decir existe una relación entre la zona y el uso o no de controles biológicos. En estos casos se recomienda comparar las proporciones de interés, por ejemplo 52/60 con 38/40. Estas proporciones no difieren estadísticamente. De manera que el resultado se puede ilustrar de forma grafica, argumentando que tanto en el área urbana como en la periurbana se utilizan los controles biológicos, siendo despreciable el porciento de la población que no lo utiliza.
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Note que esto es solo un ejemplo y que el tamaño de muestra no es representativo. Note también que no se ha ofrecido ningún resultado refrente a la cantidad de hectáreas. Pudiera ser, que usted estuviera interesado en la cantidad de hectáreas por zonas o la cantidad de hectáreas que poseen los campesinos que no usan controles biológicos, etc. Este sería otro aspecto analizar del mismo modo.
Otra forma de abordar el análisis
Es conveniente, cuando se desea evaluar influencia de los distintos factores estudiados (todas o casi todas las preguntas) sobre uno en particular, utilizar modelos logísticos o análisis discriminante.
Supongamos que, en el ejemplo anterior, se evalué el efecto del área y la cantidad de hectáreas sobre el uso o no de biológicos lo correcto es usar un modelo logístico donde la variable dependiente es el uso de biológicos y las independientes la zona y la cantidad de hectáreas, igual para un discriminante.
La salida de un análisis discriminante seria:
Wilks' Partial F-remove
Lambda Lambda (1,97) p-level
ZONA ,999271 ,982197 1,758165 ,187968
HA ,981482 1,000000 ,000012 ,997294
Lo cual ratifica que la zona y el número de hectáreas no influyen en el uso de controles biológicos.
Como se puede ver el uso del análisis estadístico refuerza el análisis de los resultados de una encuesta y puede hacer tan sencillo o tan complicado como se precise.
¿EL ANÁLISIS DE COMPONENTES PRINCIPALES SE PUEDE USAR PARA FORMAR GRUPOS?
El Análisis de Componentes Principales (ACP) es un método muy eficaz para el Análisis de datos cuantitativos (continuos o discretos) que se presentan bajo la forma de cuadros de M observaciones / N variables. Permite:
visualizar y analizar rápidamente las correlaciones entre las N variables,
visualizar y analizar las M observaciones inicialmente descritas por N variables en un gráfico de dos o tres dimensiones. Y aunque a partir de este resultado los investigadores conforman agrupamiento a priori, este no es un método aconsejable para formar grupos cuando se tienen más de 15 individuos.
construir un conjunto de P factores no correlacionados (P<=N) que pueden luego ser reutilizados por otros métodos (la regresión por ejemplo). Los límites del ACP vienen del hecho que es un método de proyección, y que la pérdida de información inducida por la proyección puede provocar interpretaciones erróneas. De ahí que no sea un método por excelencia para la formación de grupos. El ACP da una idea gráfica pero, la construcción de los grupos no es obvia.
Uriel (1995) menciona que el objetivo del análisis de componentes principales es explicar la mayor parte de variabilidad total de un conjunto de variables con el menor número de componentes posibles. Es decir, que su objetivo es reducir el número de variables para poder graficar o hacer estudios posteriores.
Se sabe, que el método de los componentes principales se puede ubicar en la estadística descriptiva. El ACP, puede ayudar a conocer el número de factores necesarios que faciliten el análisis en la investigación, un análisis de tipo exploratorio. También el ACP ayuda a confirmar si unos factores fijados a priori son los más adecuados.
El método de análisis de componentes principales constituye una técnica para analizar las asociaciones lineales entre las variables. Cuando no existe asociación entre las variables las correlaciones entre ellas son nulas y carece de sentido realizar estos tipos de análisis.
Número de Componentes a Retener
Luego de realizar el ACP, el análisis comienza en la decisión de cuantas (m) componentes tomar. El problema a resolver es cómo fijar m (m<p), componentes principales que expliquen a las p variables observadas. En esta sección se presentarán tres criterios para tomar la decisión:
(a) Criterio de la media aritmética:
Escoger aquellas raíces características que excedan a la media de todas las raíces características.
(b) Contraste sobre las raíces características no retenidas
Una forma de comprobar si ha escogido el número de componentes adecuados, es preguntarnos si las componentes no escogidas son significativas o no. Para ello, se analizan sus raíces características. El proceso de cálculo de las componentes suponía escoger las primeras raíces características de modo que expliquen la mayor varianza posible. De esta forma, es lógico pensar que si las primeras m raíces explican un alto porcentaje de la varianza, las restantes p-m, raíces tengan un valor pequeño o nulo. Entonces, podríamos establecer como hipótesis nula del contraste:
Para ver la fórmula seleccione la opción "Descargar" del menú superior
El estadístico para la prueba es:
Para ver la fórmula seleccione la opción "Descargar" del menú superior
Este estadístico distribuye chi-cuadrado con (p-m+2)(p-m+1)/2 grados de libertad. La forma de operar del test es la siguiente, supongamos que se han escogido m componentes, o lo que es equivalente m raíces características, si se rechaza la hipótesis nula querrá decir que al menos una de las raíces no seleccionadas es significativa, luego habría que incorporar una nueva componente. El proceso sigue hasta que no se rechace la hipótesis nula.
(c) Gráfico de sedimentación.
Este gráfico presenta en el eje de las ordenadas las raíces características y el de abscisas el número de componentes en orden decreciente (ver Gráfica 1).
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Lo que se observa en la gráfica se asemeja al perfil de una colina con una pendiente fuerte hasta llegar a una meseta con una ligera inclinación (base de la colina). El criterio es retener todas aquellas componentes previas a la zona de sedimentación (antes de llegar a la meseta).
Luego, con las componentes elegidas voy realizando gráficos, perennemente en dos dimensiones, de manera que pueda explicar la formación de grupos o distinción de un objetivo. Así por ejemplo, si mi objetivo es decidir cual de 10 variedades evaluadas es la de mejores características puedo, como método descriptivo, emplear un ACP y graficar la ubicación que toman las variedades en el espacio. Igual que para distinguir individuos dentro de especies diferentes etc. Repetimos, la conformación de los grupos no es obvia.
Por ejemplo. Supongamos que 20 aislamientos, de la variedad de arroz Perla de Cuba, se estudian para distinguir el de mejores resultados agronómicos con vista a posteriores cruzamientos y garantizar variedades resistentes a Steneotarsonemus spinki. Se mide peso del grano, número de hijos, cantidad de granos llenos, cantidad de granos vanos, cantidad de granos manchados, cantidad de vainas manchadas, número de S. spinki en las hojas banderas.
Al realizar el ACP se obtuvo:
Para ver la tabla seleccione la opción "Descargar" del menú superior
Para decidir cuantas componentes tomar evaluemos los diferentes métodos (es valido usar solo uno de ellos)
- Criterio de la media aritmética
La media aritmética de los valores propios es 1. Por lo que se deben seleccionar las tres primeras componentes.
- Contraste sobre las raíces características no obtenidas.
Q=-15.47
Chi cuadrado para (p-m+2)(p-m+1)/2 grados de libertad es c 2(7-3+2)(7-3+1)/2 es c 215 que según la tabla es 25. Por lo cual Q<c 2 y no puedo rechazar la hipótesis de que las restantes raíces no aportan significación al resultado y por consiguiente, se toman las tres primeras componentes.
- Gráfico de sedimentación.
Para ver el gráfico seleccione la opción "Descargar" del menú superior
La zona de sedimentación se inicia en la componente 4, tomamos las 3 componentes previas.
Al tomar 3 componentes obtenemos que:
Para ver la tabla seleccione la opción "Descargar" del menú superior
Que la primera componente está representada por (peso>0.70) las variables peso del grano y número de granos llenos, en sentido inverso. En el factor 2 ninguna variable tiene un peso superior a las restantes y el factor o componente 3 está representado por el número de hijos también en sentido inverso. Quiere esto decir que lo conveniente es hacer un grafico con las componentes 1 y 3.
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Es fácil, ver que el aislamiento 4 es el que presenta las características más favorables mayor peso, mayor número de granos llenos y mayor número de hijos. Además, presentó menor nivel de S. spinki. Note además que es difícil conformar grupos entre el resto de los aislamiento. Por ello, el análisis de cluster es el método estadístico más efectivo para conformar grupos.
¿CUÁNDO REALIZO UN ANÁLISIS DE CLUSTER POR DONDE HAGO EL CORTE DEL DENDOGRAMA?
El análisis de conglomerados, comúnmente conocido como análisis de cluster, consiste en un tipo de técnica que se utiliza para clasificar los objetos o casos en grupos relativamente homogéneos llamados conglomerados. Los objetos en cada grupo tienden a ser similares entre sí y diferentes a los objetos en otros grupos. Este análisis se conoce también como análisis de clasificación o taxonomía numérica.
En la rama agropecuaria, utilizamos los procedimientos de conglomerados que asignan cada objeto a un solo grupo, ejemplo clasificación taxonómica. La figura muestra como en la realidad las fronteras de algunos de los grupos no están definidas con claridad y la clasificación de algunos individuos no es obvia porque muchos de ellos podrían agruparse en un grupo u otro.
Para ver la tabla seleccione la opción "Descargar" del menú superior
En el análisis de conglomerados no hay información a priori acerca de la participación en el grupo de ninguno de los objetos. Los datos sugieren los grupos y no se definen previamente.
Debemos mencionar que la mayor parte de estos métodos son procedimientos relativamente sencillos que no están respaldados por el razonamiento estadístico. La mayor parte de los métodos de agrupación son heurísticos, basados en algoritmos. De manera que, el análisis de conglomerados presenta un fuerte contraste con el análisis de la varianza, la regresión, el análisis discriminante y el análisis factorial, que se basan en un razonamiento estadístico. A pesar de que muchos métodos de agrupación tienen propiedades estadísticas importantes, es necesario reconocer la sencillez fundamental de estos métodos. Los estadísticos y conceptos siguientes están relacionados con el análisis de conglomerados:
- Centroide de agrupamiento El centroide de agrupamiento son los valores medios de las variables para todos los casos u objetos de un grupo particular.
- Centros de agrupamiento Son los puntos de partida iniciales en la agrupación no jerárquica. Los grupos se construyen alrededor de estos centros o semillas.
- Participación en el grupo Indica el grupo al que pertenece cada objeto o caso.
- Dendrograma Un dendrograma, o gráfica de árbol, es un dispositivo gráfico para presentar los resultados del conglomerado. Si el dendograma es horizontal, las líneas verticales representan los grupos que están unidos. La posición de la línea en la escala indica las distancias en las que se unieron los grupos. El dendrograma se lee de izquierda a derecha.
- Distancias entre los centros de los grupos Indican cuán separados están los pares individuales de grupos. Los grupos muy separados son distintos y, por tanto, deseables.
- Matriz de coeficientes de distancia/similitud Ésta es una matriz triángular inferior que contiene las distancias en dirección pareada entre los objetos o casos.
Cómo realizar el Análisis de Conglomerados
El primer paso consiste en formular el problema de agrupación al definir las variables en las que se basa ésta. Después, debe seleccionarse una medida de distancia apropiada. La medida de distancia determina qué tan similares o diferentes son los objetos que se agrupan. Se han desarrollado varios procedimientos de agrupación y el investigador debe seleccionar uno apropiado para el problema que se maneja. La decisión del número de conglomerados requiere en gran medida del criterio del investigador. Los conglomerados derivados deben interpretarse en términos de las variables utilizadas para formarlos. Por último, es preciso que el investigador evalúe la validez del proceso de conglomerados.
Para realizar el análisis de conglomerados es necesario seguir los siguientes pasos:
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Cuando se emplee este método y se desee publicar el resultado, debemos recordar que los tres primeros pasos han de ser detallados en materiales y métodos y los tres restantes en Resultados y Discusión. Por ejemplo, los materiales y métodos pueden ser descritos como: Se realizó un análisis de conglomerados (Cluster) para el cual se empleó la distancia Euclideana como medida de similitud. Los grupos se formaron según procedimiento del vecino más cercano.
Aunque la pregunta está dirigida a la selección del número de conglomerados, dada la importancia que tiene el conocimiento de esta técnica explicaremos cada uno de sus pasos.
Formulación del Problema
Quizá la parte más importante de la formulación del problema de conglomerados es la selección de las variables en las que se basa la agrupación. La inclusión de una o más variables irrelevantes puede distorsionar una solución de agrupación que de otra forma podría ser útil. Básicamente, el conjunto de variables seleccionado debe describir la similitud entre los objetos en términos relevantes para el problema de investigación. Las variables deben seleccionarse con base en la investigación previa, la teoría o una consideración de las hipótesis que se prueban. En la investigación exploratoria, el investigador debe poner en práctica el criterio y la intuición.
Selección de la Medida de Distancia o Similitud
Ya que el objeto del conglomerado es agrupar objetos similares, se necesita alguna medida para evaluar las diferencias y similitudes entre objetos. La estrategia más común consiste en medir la equivalencia en términos de la distancia entre los pares de objetos. Los objetos con distancias reducidas entre ellos son más parecidos entre sí que aquellos que tienen distancias mayores. Existen varias formulas o medidas de similitud para calcular las distancias entre dos objetos y se seleccionan de acuerdo con el tipo de variables (discretas, continuas o mixtas) con las cuales se hará el agrupamiento. Así, para las variable binaria es recomendables utilizar métricas como la de Jaccard, Nei-Li etc. También, se recomienda usar combinación de métricas cuando estamos en presencia de variables mixtas (Miranda, 1998)
Para variables continuas, la medida de similitud que se utiliza con mayor frecuencia es la distancia euclidiana o su cuadrado. La distancia euclidiana es la raíz cuadrada de la suma de las diferencias cuadradas en los valores para cada variable. También están disponibles otras medidas de distancia. La distancia Manhattan o de Calles Urbanas entre dos objetos es la suma de las diferencias absolutas en los valores para cada variable. La distancia de Chebychev entre dos objetos es la diferencia absoluta máxima en los valores para cualquier variable.
Si las variables se miden en unidades muy diferentes, la solución de la agrupación tendrá la influencia de las unidades de la medición. En estos casos, antes de agrupar a los individuos, debemos estandarizar los datos. Aun cuando la estandarización puede eliminar la influencia de la unidad de medición, también es probable que reduzca las diferencias entre los grupos en las variables que pueden discriminar mejor los grupos o conglomerados. Es recomendable eliminar los casos con valores atípicos.
El uso de distintas medidas de distancia puede llevar a diversos resultados. Por consiguiente, se recomienda utilizar medidas diferentes y comparar los resultados. Después de seleccionar una medida de distancia o similitud, podemos elegir un procedimiento de agrupación.
Selección de un Procedimiento de Agrupación
Los procedimientos de conglomerados pueden ser jerárquicos o no. El conglomerado jerárquico se caracteriza por el desarrollo de una jerarquía o estructura en forma de árbol. A su vez, los métodos jerárquicos pueden ser:
- Análisis de Conglomerados por Aglomeración: El conglomerado por aglomeración empieza con cada objeto en un grupo separado. Los conglomerados se forman al agrupar los objetos en conjuntos cada vez más grandes. Este proceso continúa hasta que todos los objetos forman parte de un solo grupo.
- Análisis de Conglomerados por División: El conglomerado por división comienza con todos los objetos agrupados en un solo conjunto. Los conglomerados se dividen hasta que cada objeto sea un grupo independiente.
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Los métodos de conglomerados se utilizan con frecuencia en la investigación agropecuaria, consisten en métodos de enlace, métodos de varianza o de sumas de los cuadrados de error y métodos centroides. Los métodos de enlace incluyen el enlace sencillo, el completo y el promedio.
El método de enlace sencillo se basa en la distancia mínima o la regla del vecino más cercano. Los primeros dos objetos conglomerados son aquellos que tienen la menor distancia entre sí. La siguiente distancia más corta se identifica, ya sea que el tercer objeto se agrupe con los dos primeros o que se forme un nuevo conglomerado de dos objetos. En cada etapa, la distancia entre dos conglomerados es la distancia entre sus dos puntos más próximos. En cualquier etapa, dos conglomerados surgen por el enlace sencillo más corto entre éstos. Este proceso continúa hasta que todos los objetos se encuentren en un conglomerado. El método del enlace sencillo no funciona adecuadamente cuando los conglomerados no están bien definidos.
El método del enlace completo es similar al enlace sencillo, excepto que se basa en la distancia máxima o la estrategia del vecino más lejano. En el enlace completo, la distancia entre dos conglomerados se calcula como la distancia entre sus puntos más lejanos.
El método del enlace promedio (UPGMA) funciona de manera similar, pero en este método, la distancia entre dos conglomerados se define como el promedio de las distancias entre todos los pares de objetos, donde se encuentra un miembro del par de cada uno de los conglomerados. este método emplea la información sobre todos los pares de distancias, no sólo las mínimas o máximas. Por esta razón, generalmente se prefiere a los métodos de enlace sencillo y completo.
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Los métodos de varianza tratan de generar conglomerados a fin de reducir la varianza dentro de los grupos.
Un método de la varianza que se utiliza con frecuencia es el procedimiento de Ward. Para cada conglomerado, se calculan las medias para todas las variables. Después, para cada objeto, se calcula la distancia para las medias de los grupos; estas distancias se suman a todos los objetos. En cada etapa, se combinan los dos conglomerados con el menor incremento en la suma total de los cuadrados de las distancias dentro de los conglomerados.
En el método centroide, la distancia entre dos grupos es la distancia entre sus centroides (medias para todas las variables). Cada vez que se agrupan los objetos, se calcula un centroide nuevo.
Para ver el gráfico seleccione la opción "Descargar" del menú superior
De los métodos jerárquicos, el método de enlace promedio y el procedimiento de Ward han demostrado un mejor desempeño que los otros procedimientos.
Por su parte, los métodos de conglomerados no jerárquicos, con frecuencia se conocen como agrupación de k medias. Estos métodos incluyen el umbral secuencial, umbral paralelo y la división para la optimización.
- En el método del umbral secuencial, se selecciona un centro de grupo y se agrupan todos los objetos dentro de un valor de umbral que se especifica previamente a partir del centro. Después, se selecciona un nuevo centro o semilla de grupo y el proceso se repite para los puntos sin agrupar. Una vez que un objeto se agrupa con una semilla, ya no se considera para su conglomerado con semillas subsecuentes.
- El método del umbral paralelo funciona de manera similar, excepto que varios centros de grupo se seleccionan simultáneamente y los objetos dentro del nivel del umbral se agrupan dentro del centro más próximo.
- El método de división para la optimización difiere de los otros dos procedimientos de umbral en que los objetos pueden reasignarse posteriormente a otros grupos, a fin de optimizar un criterio general, como la distancia promedio dentro de los grupos para un número determinado de conglomerados.
Dos desventajas importantes de los procedimientos no jerárquicos son que el número de grupos debe especificarse previamente y que la selección de los centros de grupo es arbitraria. Además, los resultados del conglomerado pueden depender de la forma en que se seleccionan los centros. Muchos programas no jerárquicos eligen los primeros k (k= número de grupos) casos sin valores faltantes como los centros de grupo iniciales. De manera que, los resultados del conglomerado pueden depender del orden de las observaciones en los datos. No obstante, el conglomerado no jerárquico es más rápido que los métodos jerárquicos y es apropiado cuando el número de objetos u observaciones es alto. Se ha sugerido que los métodos jerárquicos y no jerárquicos se utilicen uno después del otro. Primero, una solución de conglomerado inicial se obtiene con el uso de un procedimiento jerárquico, como el enlace promedio o el de Ward. Las cantidades de grupos y centroides de grupo que se obtienen de esta forma se utilizan como entradas para el método de división para la optimización.
La elección de un método de conglomerado y la elección de una medida de distancia están interrelacionadas. Por ejemplo, las distancias euclidianas cuadradas deben utilizarse con los métodos de Ward y centroide. Varios procedimientos no jerárquicos emplean también las distancias euclidianas cuadradas.
Elección del Número de Conglomerados
Un aspecto importante en el análisis de conglomerados es decidir el número de éstos. Para ello, están disponibles algunos lineamientos.
- Las consideraciones teóricas, conceptuales o prácticas pueden sugerir un número determinado de grupos. Por ejemplo, si el propósito de la agrupación es identificar grupos de especies, es probable que conozcamos el un número límite de grupos a formar.
- En el conglomerado jerárquico, las distancias en las que los grupos se combinan pueden utilizarse como criterios. Esta información puede obtenerse del programa de aglomeración o del dendrograma.
- En la agrupación no jerárquica, la relación de la varianza total dentro de los grupos con varianza entre los grupos puede trazarse en comparación con el número de éstos.
Existen algunos criterios, de complejidad en sus cálculos, que pueden servir para identificar la cantidad de grupos a formar. Por ejemplo, denotando como B a la matriz de correlación de las variables que se utilizan en la clasificación y W las suma de las sub-matrices de correlación que se obtienen al formar 1, 2,…K grupos. Se dice que K es el número óptimo de grupos a formar si toma un valor que minimiza:
Calinski – Harabaz (1974)
Mariott (1971)
Maronna y Jacovkis (1974)
Symons (1981)
Symons (1981)
Banfield y Raftery (1993)
Siendo n la cantidad de observaciones y ni la cantidad de individuos en el grupo i.
Estos métodos no están automatizados y son engorrosos. Lo más común es utilizar las componentes principales como una idea gráfica. Se representan en las dos primeras componentes obtenidas de un análisis de componentes principales y se identifica cada observación según el grupo al cual pertenece. Para que la agrupación sea adecuada los grupos tienen que quedar bien delimitados, de lo contrario hay que hacer menos grupos. Es conveniente empezar por la mayor cantidad de grupos posibles e ir disminuyendo.
Supongamos que realizamos un análisis de cluster para agrupar 20 individuos, al emplear el método de Ward y la distancia euclidiana se obtiene un dendograma que sugiere la formación de 5 grupos conformados como: {1,10,11,12,7,15,5}, {8,16,17},{2,6,9,4,20,13,14} , {3} y {18,19}
Al realizar el análisis de componentes principales se obtiene:
Para ver la fórmula seleccione la opción "Descargar" del menú superior
Donde se aprecia que solo están bien delimitados los grupos 4 y 5, por lo que se sugiere hacer solo 3 grupos: {1,10,11,12,7,15,5,
Para ver el gráfico seleccione la opción "Descargar" del menú superior
8,16,17,2,6,9,4,20,13,14} , {3} y {18,19}
Evaluación de la Validez
Dados los criterios generales que comprende el análisis de conglomerados, no debe aceptarse ninguna solución de agrupación sin una evaluación de su confianza y validez. Todos los procedimientos anteriormente explicados son útiles para evaluar la confianza y validez de las soluciones de agrupación, pero como vimos son complejos y no por completo defendibles. No obstante, los siguientes procedimientos también ofrecen revisiones adecuadas de la calidad de los resultados de la agrupación.
- Realice el análisis de conglomerados con los mismos datos y utilice distintas medidas de distancia. Compare los resultados con todas las medidas a fin de determinar la estabilidad de las soluciones.
- Utilice diversos métodos de conglomerado y compare los resultados.
- Divida los datos a la mitad en forma aleatoria. Realice el conglomerado por separado en cada mitad. Compare los centroides de grupo en las dos submuestras.
- Elimine las variables en forma aleatoria. Realice la agrupación con base en el conjunto reducido de variables. Compare los resultados basados en el conjunto completo con los que obtuvo al realizar el conglomerado. Las variables que marcan una diferencia significativa entre los conglomerados pueden identificarse mediante el análisis discriminante y el análisis de varianza unidireccional.
- En el conglomerado, no jerárquico, la solución puede depender del orden de los casos en el conjunto de datos. Lleve a cabo corridas múltiples y utilice distintos órdenes de los casos hasta que la solución se estabilice.
- Realice un análisis discriminante donde la variable cluster obtenida en el análisis de conglomerados sea la variable que identifica los grupos y vea que porciento de buena clasificación se obtiene.
Interpretación y elaboración de un Perfil de los Conglomerados
La interpretación y el perfil de los grupos comprenden el análisis de los centroides de grupo. Los centroides representan los valores medios de los objetos que contiene el grupo en cada una de las variables. Los centroides nos permiten describir cada grupo al asignarle un nombre o etiqueta.
Banfield, J. D. y Raftery, A. E. 1993. Model based in Gaussian and non Gaussian clustering. Biometrics, 49:803-821.
Calinski, T. y Harabaz, J. 1974. A dendrite method for cluster analysis. Communications in Statistics, 3: 1-27.
Cuadras, C. M. 1991. Métodos de Análisis Multivariante, PPU.
Cué, J.L., Castell, E. y Hernández, J.M. 1987. Estadística Segunda Parte. Universidad de la Habana. Facultad de Matemática Cibernética.
De la Vega, R. 2000.Software para el cálculo del tamaño de las muestras para variables de distintas naturaleza. La BIOFAM.
Efimov, A., Karakulin, A., Pospélov, P., Teréscheko, A., Vukólov, E., Zemskov, V. y Zolotarev, Yu. 1986. Problemas de las Matemáticas Superiores. Ed. MIR, Moscu., p- 607.
Hair, J. F. et al, 1999, Análisis Multivariante, Pretince-Hall Iberia, Madrid.
Jonson, Richard, 1998, Applied Multivariante Statistics Analysis.
Lemeshov, S., Hosmer, D., FLAR, J. y Lwanga, S. 1990. Adequacy of sample size in health studies. Ed. John Willey and Sons.
Mariott, F.H.C. 1971. Practical problems in a method of cluster analysis. Biometrics, 27:501-514.
Maronna, R. A. y Jacovkis, P.M. 1974. Multivariate clustering procedures with variables metrics. Biometrics, 30: 499-505.
Miranda, 1998. Coeficiente de similaridad para variables mixtas I. Nueva propuesta. Revista Protección Vegetal. 13(2).
Sokal,R. y Rohlf, F. J. 1969. Biometry. State University of New York at Stony Brook. Ed. A Series of Books in biology, p. 776.
Symons, M. J. 1981. Clustering criteria and multivariate normal mixtures. Biometrics, 37:35-43.
Visite el sitio:
Ileana Miranda Cabrera