- Introducción
- Desarrollo
- Resultados y discusión
- Análisis de conglomerados
- Conclusiones
- Bibliografía citada
- Anexo
Introducción
El diplomado en Estadística Aplicada a las Ciencias Sociales con el propósito de actualizar los conocimientos del talento humano en la generación, gestión y análisis de estadísticas sociales, económicas, administrativas y salud, entre otras, en la planificación y toma de decisiones en la gestión pública y privada; donde el uso de herramientas y técnicas de estadística exige una formación especializada de funcionarios, profesionales y personas de las diferentes ramas del saber que tengan que ver con el manejo, análisis y desarrollo de informes.
Por lo antes expuesto, el objetivo del presente trabajo, consistió en poner en práctica los conocimientos adquiridos sobre análisis multivariado bajo la conducción de la Lic. Anny Guilarte; para lo cual, estudia el consumo de proteínas en Europa.
Desarrollo
La matriz de datos que a continuación se presenta, es del tipo individuo por variable y tiene dimensión 25 x 9, 25 individuos que corresponden a 25 países europeos y 9 variables que representan el porcentaje de consumo de proteína que cada tipo de alimento proporciona. Las variables son: Carnes rojas (CR), carnes blancas (CB), huevos (H), Leche (Leche), pescado (Pesc), Cereales (Cer), fécula (Fec), nueces (Nue), frutas y verduras (FV); cuya data fue proporcionada por la Prof. Anny Guilarte (Anexo 1).
Para el estudio planteado se emplean dos métodos de análisis multivariados: 1) Análisis de componentes principales y 2) Análisis de conglomerados, bajo el programa estadístico InfoStat.
Análisis de Componentes Principales, el cual comprende tres objetivos:
1) Reducir la dimensionalidad del problema que se está estudiando.
2) Generar nuevas variables que puedan expresar la información contenida en el conjunto original de datos.
3) Descubrir interrelaciones en los datos.
Análisis de Conglomerados. El análisis de conglomerados es una herramienta estadística que se utiliza con la finalidad de clasificar las observaciones en grupos, de tal forma que cada grupo sea homogéneo y que estos grupos sean lo más distintos posibles unos de otros. Tiene como objetivo buscar relación en los datos para determinar cuáles son más parecidos entre ellos, para lo cual se empleó la misma data de los 25 países europesos y 9 variables que representan el consumo de proteína, para el análisis de conglomerados jerárquico con distancia euclídea al cuadrado y el método de Ward.
Resultados y discusión
Antes de proceder a realizar el análisis por componentes principales se debe conocer si existe correlación entre las variables para poder aplicarlo Análisis de Correlación.
De acuerdo al Cuadro 1, se puede apreciar que existe correlación entre las variables, lo que se resalta en amarillo en dicho Cuadro; por ejemplo, existe una alta correlación positiva (0,83) entre el consumo de huevos y el de frutas y verduras; al igual que el del consumo de cereales y de frutas y verduras. Por lo antes expuesto, se procede a realizar el análisis de componentes principales.
Cuadro 1. Correlación de Pearson: Coeficientesprobabilidades, a las variables: CR, CB, H, Leche, Pesc, Cer, Fec, Nue y FV
¿Cuantos componentes deben retenerse?
En el Cuadro 2 se presentan los autovalores. Para deducir cuantos componentes principales se deben retener y así tener un alto porcentaje de variación explicada, se tiene, que de acuerdo con el Criterio del Promedio de Kaiser se deben retener aquellos componentes cuyos autovalores sean mayores que 1.
Decisión
En conclusión, se deciden retener los 3 primeros componentes ya que según el criterio de Kaiser, sus autovalores son mayores a 1 y con estos se logra explicar el 75% de la variabilidad de los datos originales.
Cuadro 2. Autovalores
Interpretación de componentes
Análisis de cada componente (Cuadro 3), generando las nuevas variables, denominadas componentes principales.
El 1er componente principal es un componente de forma, en el que se oponen las variables: consumo de carnes rojas, carnes blancas, huevo, leche pescado y fécula al consumo de cereales, nueces, frutas y verduras. También se observa que la variable consumo de cereales tiene el más alto coeficiente de correlación (0,88) con este componente, lo que indica que dicha variable contribuye bastante en la variabilidad explicada por este componente; siguiendo el consumo de huevos, nueces, leche. Las variables consumo de carnes blancas, carnes rojas y fécula, también contribuyen en la variabilidad explicada por este componente pero en menor proporción que las variables antes mencionadas. Por otra parte, las variables consumo de pescado, frutas y verduras contribuyen en menor proporción a la variabilidad explicada, ya que presentan los coeficientes de correlación más bajos.
Por lo antes expuesto, éste primer componente representa las variables que reflejan el consumo de proteína aportado por cereales, frutos secos, huevos y la ganadería bovina, féculas, por tener los más altos coeficientes de correlación. Este componente podría ser un indicador del CONSUMO DE PROTEINA DE ORIGEN VEGETAL Y ANIMAL.
El 2do componente principal es un componente de forma, en el que se oponen cinco de las variables (consumo de carnes rojas, carnes blancas, huevos, leche y cereales) al consumo de pescado, frutas y verduras, féculas y nueces. También se observa que la variable consumo de pescado tiene el coeficiente de correlación más alto (0,83) con este componente, lo que indica que la mayor parte de la variabilidad explicada por este componente, es por parte de la variable consumo de pescado, siguiendo en orden de importancia el consumo de frutas y verduras. Las variables que en el 1er componente tenían una alta correlación con este, pierden fuerza en el 2do componente principal. Por otro lado, las variables consumo de carnes rojas y huevo, por tener un coeficiente de correlación cercano a cero, no son representativas para este 2do componente. Por lo antes expuesto, éste 2do componente, podría ser un indicador del CONSUMO DE PESCADO Y FRUTAS – VERDURAS.
El 3er componente principal también es un componente de forma, en el que se oponen 4 de las variables (consumo de carnes rojas, leche, pescado, nueces) al resto de las variables. Aquí, la variable que más contribuye en la variabilidad explicada por este componente es el consumo de carnes blanca. Las variables representativas en los componentes anteriores pierden fuerza en este. Cabe destacar que la variable consumo de nueces que contribuía significativamente en la variabilidad explicada por el 1er componente, que en este componente pierden mucha fuerza resultando ser las menos significativas o las que menos contribuye en la variación explicada por el 3er componente. Este componente podría ser un indicador del CONSUMO DE CARNES BLANCAS.
Cuadro 3. Correlaciones con las variables originales
Interpretación geométrica
En la Figura 1, se presenta el biplot para el 1er y el 2do componente principal.
Figura 1. Análisis de componentes principales CP1 y CP2
En la Figura anterior, en el cuadrante # 3, las variables que representan el consumo de CB, CR, huevo y leche aparecen muy cerca una de la otra, lo que indica que entre ellas existe una fuerte asociación lineal directa. En el resto de las variables no se observa una relación lineal significativa. Mientras que en cuadrante 2, se observa asociación entre el consumo de pescado y fécula. La variable consumo de cereales no está cerca de las demás variables por lo tanto no tiene relación lineal significativa con el resto de las variables.
A continuación se presenta el biplot para el 1er y el 3er componente principal (Figura 2).
Figura 2. Análisis de componentes principales CP1 y CP3
Al igual que en la Figura anterior, se observa una asociación lineal directa en las variables referidas al consumo de CB, Fécula, huevo (cuadrante # 2) y CR, Leche y Pescado, concentradas en cuadrante # 3; mientras que la variable consumo de fécula, se encuentra sola en el cuadrante # 4. En las variables consumo de cereales y frutas-verduras (cuadrante # 2) no se observa una relación lineal significativa.
A continuación se presenta el biplot para el 2do y el 3er componente principal (Figura 3).
Figura 3. Análisis de componentes principales CP2 y CP3
Leyenda referente a los países de Europa, que se muestran en las Figuras 1, 2 y 3.
1 | Albania |
2 | Austria |
3 | Belgica |
4 | Bulgaria |
5 | Checoslovakia |
6 | Dinamarca |
7 | Alemania E |
8 | finlandia |
9 | Francia |
10 | Grecia |
11 | Hungria |
12 | Irlanda |
13 | Italia |
14 | Paises Bajos |
15 | Noruega |
16 | Polonia |
17 | Portugal |
18 | Rumania |
19 | Espana |
20 | Suecia |
21 | Suiza |
22 | Reino Unido |
23 | Rusia |
24 | Alemania O |
25 | Yugoslavia |
En la Figura 3, se observa una asociación lineal directa significativa en las variables referidas al consumo de huevo, carnes blancas y cereales, concentradas en cuadrante # 2.
Finalmente, de acuerdo a las interpretaciones anteriores, cabe destacar que en el lado derecho de los gráficos se encuentran las variables referidas al consumo de carnes blancas, carnes rojas, huevo, Leche, Pescado y Fécula; lo que indica una asociación lineal entre ellas.
Análisis de conglomerados
Medida de similaridad
Uno de los primeros pasos a seguir en la ejecución de un análisis de conglomerados, es establecer un indicador que presente en qué medida cada par de observaciones se parecen entre sí. Para esto, a continuación se tiene la matriz de distancias, aplicando como medida de similaridad la distancia Euclídea al cuadrado:
Método Ward
Distancia: (Euclidea^2)
Correlación cofenética= 0,439
Variables no estandarizadas
Casos leidos 25
Casos omitidos 0
Variables
CR
CB
H
Leche
Pesc
Cer
Fec
Nue
FV
Criterios de clasificación:
País
"Ward o método de mínima varianza (Ward, 1963): Es similar al método del centroide, pero cuando une conglomerados realiza una ponderación (por el tamaño de cada grupo) de todos los conglomerados participantes, así en cada unión la pérdida de información es minimizada. Define la distancia entre dos grupos como la suma de las sumas de cuadrados del ANAVA entre los dos grupos sobre todas las variables. El método es recomendado para datos con distribución normal y matrices de covarianzas esféricas, homogéneas entre grupos. Tiende a producir grupos con igual número de observaciones y puede ser muy afectado por valores extremos. Los procedimientos jerárquicos descriptos anteriormente no realizan ninguna acción diferencial con observaciones aberrantes. Si una observación rara fue clasificada en etapas tempranas del procedimiento en algún grupo, esta permanecerá ahí en la configuración final. Por ello, es importante revisar cuidadosamente las configuraciones finales. La práctica de aplicar más de un procedimiento y más de una medida de distancia, usualmente ayuda a diferenciar entre agrupamientos naturales y artificiales. Algunos experimentadores, usan la técnica de la perturbación (introducción de errores en los datos y reagrupamiento bajo la nueva situación) para probar la estabilidad de la clasificación jerárquica. La técnica de muestreo reiterado conocida como bootstrap es también recomendada para probar estabilidad de los nodos logrados en un agrupamiento particular" (Di Rienzo et al., 2014).
Figura 4. Dendograma
Al observar en la Figura 4, se distinguen 3 grupos homogéneos o conglomerados, es decir, que cada uno de los Estados que pertenecen a un determinado grupo, son muy parecidos entre ellos en cuanto a que, tienen casi el mismo consumo promedio de carnes rojas (CR), carnes blancas (CB), huevos (H), Leche (Leche), pescado (Pesc), Cereales (Cer), fécula (Fec), nueces (Nue), frutas y verduras (FV).
Estos grupos están conformados por:
1er grupo: Estados: Finlandia, Noruega, Suecia, Dinamarca, Reino Unido, Francia, Bélgica, Suiza, Irlanda, Austria, Países bajos, Alemania O.
2do grupo: Rumania, Yugoslavia y Bulgaria.
3er grupo: Portugal, España, Alemania E., Hungria, Polonia, Chescolovakia, Rusia, Italia, Grecia y Albania.
Conclusiones
Se determinó que existe asociación entre cada una de las variables (correlación): consumo de carnes rojas (CR), carnes blancas (CB), huevos (H), Leche (Leche), pescado (Pesc), Cereales (Cer), fécula (Fec), nueces (Nue), frutas y verduras (FV); lo que permitió realizar el análisis de componentes principales.
Se logró reducir la dimensionalidad del problema planteado, al retener los 3 primeros componentes, permitiendo explicar el 75% de la variabilidad de los datos originales y finalmente determinadas interrelaciones entre los datos.
Se decidió retener tres (3) conglomerados, donde cada uno de los Estados que pertenecen a un determinado grupo, son muy parecidos entre ellos en cuanto a que, tienen casi el mismo consumo promedio de carnes rojas, carnes blancas, huevos, leche, pescado, cereales, fécula, nueces, frutas y verduras.
Bibliografía citada
Di Rienzo J.A., Casanoves F., Balzarini M.G., Gonzalez L., Tablada M., Robledo C.W. InfoStat versión 2014. Grupo InfoStat, FCA, Universidad Nacional de Córdoba, Argentina. URL http://www.infostat.com.ar
Guilarte, A. (2014). Estadística Multivariada.pdf. 26 p.
Guilarte, A. (2012). Análisis de Componentes Principales y Análisis de Conglomerados. Universidad de Los Andes, Facultad de Ciencias Económicas y Sociales. Escuela de Estadística.pdf. 17 p.
Anexo
Anexo 1. Data consumo de Proteína en 25 países de Europa
País | CR | CB | H | Leche | Pesc | Cer | Fec | Nue | FV | ||
Albania | 10,1 | 1,4 | 0,5 | 8,9 | 0,2 | 42,3 | 0,6 | 5,5 | 1,7 | ||
Austria | 8,9 | 14 | 4,3 | 19,9 | 2,1 | 28 | 3,6 | 1,3 | 4,3 | ||
Bélgica | 13,5 | 9,3 | 4,1 | 17,5 | 4,5 | 26,6 | 5,7 | 2,1 | 4 | ||
Bulgaria | 7,8 | 6 | 1,6 | 8,3 | 1,2 | 56,7 | 1,1 | 3,7 | 4,2 | ||
Checoslovaquia | 9,7 | 11,4 | 2,8 | 12,5 | 2 | 34,3 | 5 | 1,1 | 4 | ||
Dinamarca | 10,6 | 10,8 | 3,7 | 25 | 9,9 | 21,9 | 4,8 | 0,7 | 2,4 | ||
Alemania E | 8,4 | 11,6 | 3,7 | 11,1 | 5,4 | 24,6 | 6,5 | 0,8 | 3,6 | ||
Finlandia | 9,5 | 4,9 | 2,7 | 33,7 | 5,8 | 26,3 | 5,1 | 1 | 1,4 | ||
Francia | 18 | 9,9 | 3,3 | 19,5 | 5,7 | 28,1 | 4,8 | 2,4 | 6,5 | ||
Grecia | 10,2 | 3 | 2,8 | 17,6 | 5,9 | 41,7 | 2,2 | 7,8 | 6,5 | ||
Hungría | 5,3 | 12,4 | 2,9 | 9,7 | 0,3 | 40,1 | 4 | 5,4 | 4,2 | ||
Irlanda | 13,9 | 10 | 4,7 | 25,8 | 2,2 | 24 | 6,2 | 1,6 | 2,9 | ||
Italia | 9 | 5,1 | 2,9 | 13,7 | 3,4 | 36,8 | 2,1 | 4,3 | 6,7 | ||
Países Bajos | 9,5 | 13,6 | 3,6 | 23,4 | 2,5 | 22,4 | 4,2 | 1,8 | 3,7 | ||
Noruega | 9,4 | 4,7 | 2,7 | 23,3 | 9,7 | 23 | 4,6 | 1,6 | 2,7 | ||
Polonia | 6,9 | 10,2 | 2,7 | 19,3 | 3 | 36,1 | 5,9 | 2 | 6,6 | ||
Portugal | 6,2 | 3,7 | 1,1 | 4,9 | 14,2 | 27 | 5,9 | 4,7 | 7,9 | ||
Rumania | 6,2 | 6,3 | 1,5 | 11,1 | 1 | 49,6 | 3,1 | 5,3 | 2,8 | ||
España | 7,1 | 3,4 | 3,1 | 8,6 | 7 | 29,2 | 5,7 | 5,9 | 7,2 | ||
Suecia | 9,9 | 7,8 | 3,5 | 24,7 | 7,5 | 19,5 | 3,7 | 1,4 | 2 | ||
Suiza | 13,1 | 10,1 | 3,1 | 23,8 | 2,3 | 25,6 | 2,8 | 2,4 | 4,9 | ||
Reino Unido | 17,4 | 5,7 | 4,7 | 20,6 | 4,3 | 24,3 | 4,7 | 3,4 | 3,3 | ||
Rusia | 9,3 | 4,6 | 2,1 | 16,6 | 3 | 43,6 | 6,4 | 3,4 | 2,9 | ||
Alemania O | 11,4 | 12,5 | 4,1 | 18,8 | 3,4 | 18,6 | 5,2 | 1,5 | 3,8 | ||
Yugoslavia | 4,4 | 5 | 1,2 | 9,5 | 0,6 | 55,9 | 3 | 5,7 | 3,2 |
Autor:
Carmela Culicetto
Ana Prato
Gelis Trinidad Torrealba Núñez
Facilitador: Lic. Anny Guilarte
Universidad Central de Venezuela
Facultad de Agronomía
Coordinación de Extensión
Diplomado en Estadística Aplicada a las Ciencias Sociales
Maracay, noviembre 2014