Descargar

Análisis de componentes principales – ACP

Enviado por jclavijo


    1. Principios del ACP
    2. ACP normado
    3. ACP a partir de una muestra
    4. Conclusiones
    5. Análisis de componentes principales
    6. Una aplicación del ACP
    7. Bibliografía

    El análisis de componentes principales (ACP), es una técnica estadística de vieja data ya que fue propuesta a principios del siglo pasado por Karl Pearson como parte del análisis de factores. Sin embargo la complejidad de los cálculos retrasaron su desarrollo hasta la aparición de los computadores y su utilización en la segunda mitad del siglo XX. El relativamente reciente florecimiento de los métodos basados en componentes principales hace que ellos sean poco utilizados por una gran cantidad de investigadores no especialistas en estadística.

    El propósito de estas notas es divulgar la naturaleza del ACP y mostrar algunas de sus posibles aplicaciones.

    Podría decirse que el objetivo principal que persigue el ACP es la representación de las medidas numéricas de varias variables en un espacio de pocas dimensiones donde nuestros sentidos puedan percibir relaciones que de otra manera permanecerían ocultas en dimensiones superiores. Dicha representación debe ser tal que al desechar dimensiones superiores (generalmente de la tercera o cuarta en adelante) la pérdida de información sea mínima. Un símil podría ilustrar la idea: imaginemos una gran lámina rectangular (objeto de tres dimensiones) de por ejemplo, 3m de larga, 2m de ancha y 4 cm de espesor. Para efectos prácticos, dicha lámina puede ser considerara como un objeto plano (de dos dimensiones) de 3m de largo por 2m de ancho. Al realizar esta reducción de dimensionalidad se pierde cierta cantidad de información ya que, por ejemplo, puntos opuestos situados en las dos caras de la lámina aparecerán confundidos en un solo. Se pierden las distancias perpendiculares a las caras. Sin embargo, la pérdida de información se ve ampliamente compensada con la simplificación realizada, ya que muchas relaciones, como la vecindad entre puntos, es más evidente cuando éstos se dibujan sobre un plano que cuando se hace mediante una figura tridimensional que necesariamente debe ser dibujada en perspectiva.

    Lo anterior, aunque sugiere que el ACP es una técnica descriptiva, no niega la posibilidad de que también pueda ser utilizado con fines de inferencia. Por otra parte, las aplicaciones del ACP son numerosas y entre ellas podemos citar la clasificación de individuos, la comparación de poblaciones, la estratificación multivariada, etc.

    Principios del ACP

    En las líneas que siguen se presentarán los fundamentos del ACP, tratando de reducir al mínimo el aparato matemático formal que lo sustenta, ésto en aras de la sencillez y la brevedad y con el fin de que el tema sea adecuado a públicos de mediana preparación en matemáticas.

    Comencemos con un sencillo ejemplo ficticio en dos dimensiones. Supóngase que se mide el peso en kilogramos y la longitud en centímetros de 20 peces y que se obtienen los siguientes datos:

    PEZ

    PESO

    LONGIT

     

    PEZ

    PESO

    LONGIT

    1

    0.5

    15

    11

    3.5

    55

    2

    1.0

    30

    12

    5.0

    85

    3

    2.5

    55

    13

    6.0

    75

    4

    6.5

    85

    14

    4.5

    60

    5

    4.5

    70

    15

    1.5

    50

    6

    1.5

    35

    16

    5.0

    75

    7

    2.5

    65

    17

    7.5

    85

    8

    1.5

    45

    18

    2.5

    40

    9

    3.5

    45

    19

    3.5

    65

    10

    0.5

    25

    20

    4.0

    80

    Los datos anteriores pueden ser dibujados mediante un diagrama de dispersión en un sistema coordenado, obteniéndose una figura como la siguiente:

     Como se puede apreciar, cada variable puede representarse sobre un eje coordenado y así cada pareja de valores representa las medidas del i-ésimo individuo, los cuales al ser representados en el plano forman la nube de individuos.

    Se quiere construir un nuevo sistema de coordenadas ortogonales en el cual los puntos puedan ser representados de una manera tal que sus proyecciones sobre el nuevo primer eje recojan la mayor cantidad posible de variación y las proyecciones sobre el segundo eje recoja el resto de variación. Intuitivamente encontramos que tales ejes corresponden a las rectas F1 y F2, representadas en la siguiente gráfica cuyo origen se encuentra en el centro de gravedad G de la nube (punto cuyas coordenadas son las medias de las variables consideradas), tal como se ve en la figura siguiente.

     Con mucha frecuencia se maneja simultáneamente un número p () de variables numéricas. Si cada variable se representa sobre un eje, se necesitaría un sistema de coordenadas rectangulares con p ejes perpendiculares entre sí para ubicar las coordenadas de los puntos y poderlos dibujar. Este dibujo es realmente imposible para el ser humano cuando , pero la idea esbozada en el ejemplo anterior sigue siendo válida: buscar un nuevo sistema de coordenadas con origen en el centro de gravedad de la nube de puntos de tal manera que el primer eje del nuevo sistema (F1) recoja la mayor cantidad posible de variación, el segundo eje F2, la mayor cantidad posible entre la variación restante, el tercer eje F3 la mayor posible entre la variación que queda después de las dos anteriores y así sucesivamente.

    Observando la figura anterior se puede deducir que el nuevo sistema de coordenadas se logra después de dos movimientos de la nube de puntos: un primer movimiento es una traslación que permite situar el nuevo origen en el centro de gravedad de la nube. La nueva nube, obtenida después de esta traslación se llama nube centrada. Un segundo movimiento que se hace sobre la nube centrada es una rotación, usando el centro de gravedad como punto pivotal. Esta rotación ha de hacerse de tal manera que el nuevo primer eje del sistema de coordenadas apunte en la dirección de máxima dispersión de la nube centrada, el segundo eje apunte en la dirección con la segunda mayor dispersión (perpendicular a la anterior), el tercer eje en la dirección de tercera mayor dispersión (perpendicular a las dos anteriores) y así sucesivamente. Es evidente que el nuevo sistema de coordenadas tiene entonces tantos ejes perpendiculares entre sí como tenía el antiguo, es decir, tantos ejes como variables se hayan considerado inicialmente.

    En los cursos de álgebra lineal se habla comúnmente de las transformaciones lineales de un espacio vectorial y se demuestra que toda transformación lineal está asociada a una matriz. En particular, las rotaciones de un espacio vectorial son transformaciones lineales del espacio vectorial sobre sí mismo y están asociadas con matrices cuadradas, unitarias y ortogonales. Una matriz de éstas, Q, tiene tantas filas y columnas como sea la dimensión del espacio, sus columnas son vectores unitarios (es decir de longitud igual a la unidad) y tiene la particularidad de que al ser multiplicada por su transpuesta produce la matriz unidad. En otras palabras, . Las traslaciones no son transformaciones lineales pero tienen la propiedad de no modificar la variabilidad de la nube de puntos. Es decir, las varianzas y covarianzas en la nube son las mismas antes y después de una traslación.

    Los resultados expuestos en el párrafo anterior, junto con algunas propiedades de la matriz de varianzas covarianzas , correspondiente a las variables originales y que serán presentadas a continuación, constituyen las bases sobre las cuales descansa la técnica de componentes principales.

    Consideremos entonces p variables aleatorias de tipo numérico las cuales posiblemente estén correlacionadas entre sí. Podemos pensar que las p variables anteriores, consideradas conjuntamente, forman un vector aleatorio o variable aleatoria multivariada, denotada por:

    La matriz de varianzas covarianzas para la variable está definida como y su entrada en la fila i columna j es el valor de la covarianza entre . Esto hace que la diagonal de esté conformada por las varianzas y que sea simétrica. Además se puede probar que es una matriz definida positiva (es decir, la forma cuadrática asociada a ella tiene todas sus raíces positivas). Todas estas propiedades de hacen que esta matriz tenga p valores propios reales y diferentes. Esto en particular garantiza que sea diagonalizable. Es decir, se puede encontrar una matriz , invertible, tal que donde es la matriz diagonal formada por los valores propios de , denotados

    Es posible reordenar de acuerdo con su magnitud los valores propios de de tal manera que sea el mayor de ellos, el que le sigue, etc y el menor de todos. Esto simplemente se traduce en un reordenamiento de las columnas de la matriz de manera que la primera sea un vector propio asociado con , la segunda un vector propio asociado con y así sucesivamente. En particular dichas columnas pueden estar formadas por vectores propios normalizados, es decir, perpendiculares entre sí y de longitud igual a la unidad. De esta manera se construye una matriz que produce la rotación deseada ya que, como puede probarse, el primer vector propio apunta en la dirección de máxima variabilidad de la nube centrada. Esta dirección se llama primera dirección principal. El segundo vector propio apunta en la siguiente dirección de máxima variabilidad de la nube centrada, llamada segunda dirección principal y así sucesivamente.

    Una vez resuelto el problema de la rotación, bastará multiplicar la variable centrada (donde cada fila dees el centro de gravedad G) por la matriz de rotación para obtener la nueva variable , llamada Variable de Componentes Principales. Cada componente del vector aleatorio , se llama una componente principal. Evidentemente se cumple que es decir, cada componente principal es una combinación lineal de las variables originales centradas.

    La traza de , por ser la suma de las varianzas de las variables originales recibe el nombre de varianza total, VT. Resulta claro que . Se puede probar además que para i =1,2,…,p y que . Esto implica varias cosas, a saber:

    1. La varianza total es igual a la suma de los valores propios de e igual a la suma de las varianzas de las componentes principales. Es decir, la varianza total es la misma con las variables originales que con las variables transformadas,
    2. Las componentes principales son variables aleatorias no correlacionadas entre sí obtenidas mediante transformaciones lineales de las variables originales centradas. Esto es: para
    3. Resulta claro que para
    4. Si todas las variables originales

    son normales entonces todas las componentes principales son normales.

    Como puede deducirse de lo anterior, la varianza total se descompone en un número finito de partes disjuntas de tamaños cada vez menores, lo que en la práctica proporciona un mecanismo para reducir la dimensionalidad de representación de las variables. En efecto, si despreciamos las últimas componentes principales, las primeras r tendrán una tasa de representatividad igual a de la varianza total de las variables originales. Muchas veces este porcentaje es bastante alto con un pequeño valor de r lo que se traduce en una alta representatividad en un espacio de pocas dimensiones.

    En la práctica resulta importante el caso r = 2 ya que si, en tal caso se obtuviera una tasa de representatividad alta, se habría logrado describir el problema sobre un plano con una pequeña pérdida de información. Por supuesto que si la reducción a un espacio de dos dimensiones conlleva una alta pérdida de representatividad no se habrá logrado un éxito y las técnicas que aquí se propondrán para visualización de individuos y variables no serán muy buenas.

    La ecuación implica lo que permite obtener las variables centradas originales como combinaciones lineales de las componentes principales. Esto en particular va a permitir representar gráficamente las variables originales centradas dentro del espacio de componentes principales, llamado espacio factorial, como puntos cuyas coordenadas son los coeficientes de en la combinación lineal correspondiente. Teniendo en cuenta que sólo las componentes principales iniciales llevan la mayor parte de la representatividad se podrá reducir el espacio factorial a dos o tres dimensiones, lo que lleva a una representación de las variables originales como vectores sobre un plano (plano factorial) o sobre un espacio tridimensional. La representación sobre el plano factorial es particularmente útil pues permite visualizar relaciones de correlación entre las variables originales y de éstas con los ejes factoriales, lo que rápidamente da una idea de cómo y en cuánto contribuye cada variable a la conformación de los primeros factores (así se llaman también las componentes principales) y qué tan fuertes son las dependencias entre las diferentes variables y los factores. Tal representación plana se llama mapa perceptual de variables. Una alta correlación positiva se traduce en vectores (flechas que unen el origen con el punto representativo de la variable) que forman un ángulo agudo. Una alta correlación negativa se traduce en flechas opuestas que tienden a formar ángulos llanos.. Finalmente, la ausencia de correlación se traduce en flechas que tienden a formar ángulos rectos. Esto sugiere que la correlación entre dos variables se mida a través del coseno del ángulo que ellas forman . Igualmente es factible realizar un mapa perceptual de individuos, es decir, una proyección de la nube de individuos sobre el plano factorial determinado por , plano que reúne la mayor representatividad de VT.

    Puesto que uno de los objetivos que se persiguen con el ACP es la representación de las observaciones o individuos en un espacio de pocas dimensiones, resulta interesante tener una medida de tal representación para cada individuo. Una tal medida está dada por la suma de cosenos cuadrados. Estos valores son los cuadrados de los cosenos de los ángulos formados por el vector que representa a cada individuo con los ejes del sistema de coordenadas factoriales. La suma de todos estos cosenos es igual a la unidad. Sin embargo, si se retienen r factores (componentes), la suma de los r primeros cosenos cuadrados mide el grado de representabilidad de cada individuos, siendo mejor representados aquellos individuos para los cuales la suma de los r primeros cosenos cuadrados esté más cerca de 1.

    Las correlaciones entre las variables originales y los factores se conocen comúnmente como cargas factoriales. Es posible calcular analíticamente tales correlaciones lo que da origen a una matriz de orden , llamada matriz de cargas. (algunos paquetes usan otros nombres: Factor Pattern en SAS, Factor Matrix en SPSS, Factor Loadings en STATISTICA, etc). Se puede probar que la correlación entre la variable original y la componente principal está dada por . Así .

    Cómo saber cuántos factores son suficientes para una buena representación de un problema? – Hay varios criterios. Talvez los dos más extendidos son el criterio de Kaiser, según el cual se deben retener tantos factores como valores propios de la matriz estén por encima del promedio y los diagramas de Cattell. Otro criterio, quizás más natural, consiste en retener tantos factores como sean necesarios para lograr un alto porcentaje de explicación de la varianza total. Para ello se usan los porcentajes acumulados de los valores propios con base en la varianza total del problema, junto con un criterio personal acerca de qué se considera un buen porcentaje de explicación (ver el ejemplo, salida 2, más adelante).

    ACP normado

    Todo lo mencionado anteriormente tiene un sentido geométrico y matemático muy claro pero en la práctica tiene un problema de interpretación. ¿Qué significado tiene una variable artificial que ha sido construída, digámoslo así, como una mezcla de otras variables cuyas naturalezas pueden ser muy diferentes? ¿Qué nombre puede recibir por ejemplo, una variable conformada por un poco de edad, otro poco de peso, otro poco de ingresos, etc? Por otra parte, el peso de cada variable original, traducido fundamentalmente en variabilidad, puede ser muy diferente para cada variable. Una variable muy dispersa puede contribuir enormemente a la varianza total mientras que una variable más homogénea contribuye menos. Esto finalmente determina la participación de cada variable en la conformación de un factor.

    Las inquietudes anteriores tienen una solución: Realizar ACP con variables originales estandarizadas. Esto resuelve los dos problemas: De una parte, las variables estandarizadas no tienen nombre, son simplemente números sin unidades en las cuales se expresen las mediciones. De otra parte, la estandarización lleva todas las escalas de medida a una escala común de media 0 y varianza 1, con lo cual se elimina el problema de medición y variabilidad diferente de las variables originales. El ACP realizado con variables originales estandarizadas se llama ACP normado. Se ve fácilmente que el ACP normado equivale al ACP corriente pero partiendo de la matriz de correlaciones en vez de la matriz de varianzas covarianzas .

    Resulta claro que el ACP normado debe ser la técnica a seguir en cualquier caso., a menos que se quieran explorar algunas otras posibilidades de tipo teórico o que se tengan variables muy similares tanto en su naturaleza como en su escala de medida.

    ACP a partir de una muestra.

    Diremos finalmente que la matriz , por ser desconocida, no puede ser usada directamente en los cálculos. En la práctica, se usa la matriz de varianzas-covarianzas , estimada a partir de una muestra observada de n individuos. Esta matriz constituye una estimación de y, por tanto, los resultados obtenidos con ella constituyen estimaciones de los correspondientes valores poblacionales. Se debe saber, sin embargo, que será necesaria una muestra aleatoria cuyo tamaño n sea mayor que el número p de variables consideradas. El hecho de usar la matriz en vez de puede eventualmente acarrear complicaciones de tipo computacional que no se discuten aquí..

    Conclusiones

    De lo dicho anteriormente se obtienen algunas conclusiones que a manera de resumen práctico se anotan en seguida:

    1. El ACP es una técnica que transforma ciertas variables en otras incorrelacionadas, de media cero, que pueden escribirse como combinaciones lineales de las primeras y que se llaman factores o componentes principales, las cuales pueden ordenarse por la magnitud de su varianza la cual está dada por un valor propio de la matriz (en la práctica de )
    2. Las primeras r componentes principales bastan para describir en alto porcentaje la variabilidad total de las variables originales. Con frecuencia r vale 2 o 3, siendo el primero de ellos el caso más deseable.
    3. Cuando el porcentaje de variabilidad explicado por dos componentes principales es alto (70%?) se puede realizar una representación gráfica de las variables originales y de los individuos de la muestra (mapas perceptúales) que muestran algunas relaciones de correlación o semejanza entre ellos .
    4. Aunque todas las variables originales entran en la composición de cada componente principal, algunas son más importantes que otras. Estas, las más importantes, determinan la naturaleza de cada componente

    Presentaremos a continuación un ejemplo de pocos datos (observaciones) en el que se ha realizado ACP no normado. Esto, debido a que las variables consideradas son de naturaleza semejante y están medidas en escalas muy similares. Los cálculos han sido realizados con un programa de computador escrito por el autor.

    EJEMPLO: Los datos siguientes corresponden a mediciones morfométricas en micras realizadas por Leyder Lozano (1999) sobre 30 machos silvestres de Rhodnius, en las siguientes variables:

    1. DEXO Distancia externa entre ojos

    2. DINO Distancia interna entre ojos

    3. DIOC Distancia interna entre ocelos

    4. DAOC Distancia anteocular

    5. DPOC Distancia postocular

    6. LCAB Longitud de cabeza y cuello

    7. COLL Ancho del collar

    8. ILOB Ancho de intersección entre lóbulos anteriores y medios

    9. AHUM Ancho de húmeros

    10. LTXE Longitud de torax y escutelo

    1724.4 700.7 740.1 3425.1 1039.3 4535.4 1700.7 3464.5 4551.1 3472.4

    1661.4 677.1 661.4 2590.0 968.5 4456.6 1708.6 3149.6 4527.5 3149.8

    1653.5 669.2 653.5 2440.9 897.6 4133.8 1673.7 3377.9 4724.4 3551.1

    1708.6 692.9 661.4 2614.0 1023.6 4440.9 1716.5 3433.0 4724.4 3401.5

    1692.9 685.0 708.6 2677.1 1125.9 4622.0 1803.1 3149.6 4826.7 3496.0

    1669.2 708.6 716.5 2590.5 1055.1 4472.4 1740.1 3149.6 4724.4 3464.5

    1645.6 724.4 748.0 2669.2 1102.3 4629.9 1795.2 3149.2 4818.8 3488.1

    1574.8 685.0 732.2 2724.4 1110.2 4551.1 1732.2 3196.8 4818.8 3377.9

    1622.0 685.0 724.4 2677.1 1157.4 4543.3 1708.6 3149.6 4622.0 3370.0

    1661.4 685.0 724.4 2645.6 1188.9 4606.2 1748.0 3417.3 4622.0 3417.3

    1660.2 687.0 724.4 2640.5 1186.5 4543.3 1708.6 3149.6 4622.0 3371.0

    1629.9 700.7 661.4 2519.6 1039.3 4377.9 1629.9 2905.5 4409.4 3267.7

    1669.3 635.5 708.6 2692.9 1015.7 4551.1 1732.2 3149.6 4818.8 3393.7

    1700.7 692.9 724.4 2661.4 1039.3 4367.7 1661.4 3149.6 4929.1 3574.8

    1755.9 724.4 724.4 2692.9 1141.7 4748.0 1771.6 3149.6 4952.7 3661.4

    1716.5 692.9 708.6 2716.5 1070.8 4606.2 1779.5 3149.6 4984.2 3661.4

    1685.0 653.5 677.1 2716.5 1078.7 4598.4 1787.4 3070.8 4724.4 3574.8

    1748.0 708.6 732.2 2755.9 1141.7 4724.4 1748.0 3149.6 4779.5 3645.6

    1637.7 685.0 699.2 2519.6 1141.4 4472.4 1740.1 2858.2 4700.7 3370.0

    1763.7 724.4 732.2 2740.1 1157.4 4866.1 1842.5 3307.0 4968.5 3669.2

    1748.0 740.1 771.6 2614.1 1078.7 4496.0 1755.9 3149.6 4724.4 3464.5

    1692.9 685.0 771.6 3070.8 1133.8 4984.2 1740.1 3354.3 4818.8 3645.6

    1755.9 692.9 732.2 2842.5 1259.8 4897.6 1834.6 3149.6 4968.5 3755.9

    1661.4 669.2 748.0 2653.5 1110.2 4606.2 1716.5 2921.2 4724.4 3456.6

    1685.0 708.6 763.7 2732.2 1220.4 4763.7 1763.7 3149.6 4669.2 3464.5

    1574.8 700.7 708.6 2543.3 1086.6 4417.3 1547.8 3118.1 4299.2 3149.6

    1732.2 748.0 700.7 2724.4 1007.8 4653.5 1755.9 3149.6 4724.4 3582.6

    1685.0 708.6 763.7 2732.2 1220.4 4763.0 1763.5 3149.4 4669.2 3465.0

    1748.2 740.2 771.7 2614.0 1078.5 4496.2 1756.0 3150.0 4724.2 3464.3

    1693.0 685.1 771.4 3070.5 1134.0 4984.0 1740.0 3352.5 4819.0 3646.0

    Estos datos, divididos entre 100 (es decir, transformadas a hectomicras), arrojan los siguientes resultados. Las salidas corresponden a las ocho primeras componenetes, número suficiente para explicar la mayor parte de los casos corrientes.

    ANALISIS DE COMPONENTES PRINCIPALES

    1. RESUMEN DE VARIABLES NO TRANSFORMADAS:

    VARIABLE: MEDIA: VARIANZA:

    V01=DEXO 1685.2367 2510.332057

    V02=DINO 696.5400 618.590759

    V03=DIOC 722.2067 1202.730989

    V04=DAOC 2710.2433 35914.492195

    V05=DPOC 1100.3833 6208.513851

    V06=LCAB 4596.9600 35127.471448

    V07=COLL 1736.7300 3390.947690

    V08=ILOB 3177.3367 20486.984471

    V09=AHUM 4733.0233 24947.907368

    V10=LTXE 3482.4267 21480.854437

    RESUMEN DE VARIABLES TRANSFORMADAS:

    (Divididas entre 100.00000)

    VARIABLE: MEDIA: VARIANZA:

    V01=DEXO 16.8524 0.251033

    V02=DINO 6.9654 0.061859

    V03=DIOC 7.2221 0.120273

    V04=DAOC 27.1024 3.591449

    V05=DPOC 11.0038 0.620851

    V06=LCAB 45.9696 3.512747

    V07=COLL 17.3673 0.339095

    V08=ILOB 31.7734 2.048698

    V09=AHUM 47.3302 2.494791

    V10=LTXE 34.8243 2.148085

    2. VALORES PROPIOS:

    (Para problema original – variables no transformadas)

    Valor Propio: Acumulado: Porcent.Acum:

    80352.3846 80352.3846 52.9021

    32004.6264 112357.0110 73.9732

    21336.1201 133693.1311 88.0204

    8946.0700 142639.2011 93.9103

    3542.8077 146182.0088 96.2428

    2368.4078 148550.4166 97.8021

    1660.9098 150211.3264 98.8956

    941.8004 151153.1269 99.5156

    502.7664 151655.8932 99.8466

    232.9320 151888.8253 100.0000

    Promedio (Kaiser): 15188.8825

    NOTA: Se debe tener en cuenta que las variables han sido transformadas y, por tanto, algunas soluciones se modifican.

    ESM advierte esto indicando si la solución es original o si ha sido modificada para que se introduzcan las correcciones del caso.

    3. COEFICIENTES uij DE VARIABLES PARA CADA COMPONENTE Fj:

    (SOLUCION ORTOGONAL DE VECTORES UNITARIOS)

    ( Fj = u1j*V01 + u2j*V02 + … + upj*V0p )

    (Se presentan las 8 primeras componentes principales)

    V/BLE F1 F2 F3 F4 F5 F6 F7 F8

    DEXO 0.108 0.066 0.081 -0.040 0.287 -0.103 0.654 0.275

    DINO 0.012 0.013 -0.009 0.028 0.158 0.019 0.291 0.429

    DIOC 0.071 -0.013 -0.076 0.015 -0.027 0.227 0.076 0.583

    DAOC 0.505 -0.625 -0.007 -0.555 -0.154 0.114 0.054 -0.043

    DPOC 0.132 0.063 -0.333 0.246 0.029 0.854 0.000 -0.078

    LCAB 0.573 0.041 -0.567 0.388 -0.021 -0.427 -0.105 0.052

    COLL 0.136 0.150 -0.008 0.074 -0.113 0.030 0.630 -0.585

    ILOB 0.215 -0.403 0.604 0.651 -0.010 0.046 -0.021 0.004

    AHUM 0.372 0.555 0.346 -0.115 -0.602 0.058 -0.048 0.170

    LTXE 0.423 0.325 0.265 -0.187 0.701 0.079 -0.261 -0.139

    4. COEFICIENTES vij DE VARIABLES PARA CADA COMPONENTE Fj:

    (SOLUCION ORTOGONAL DE VECTORES REESCALADOS AL VALOR PROPIO)

    (La suma de cuadrados de coeficientes es el valor propio)

    (Se presentan las 8 primeras componentes principales)

    V/BLE F1 F2 F3 F4 F5 F6 F7 F8

    DEXO 0.307 0.118 0.118 -0.038 0.171 -0.050 0.266 0.084

    DINO 0.034 0.024 -0.014 0.026 0.094 0.009 0.119 0.132

    DIOC 0.201 -0.023 -0.111 0.014 -0.016 0.111 0.031 0.179

    DAOC 1.432 -1.119 -0.011 -0.525 -0.092 0.055 0.022 -0.013

    DPOC 0.374 0.114 -0.486 0.233 0.017 0.416 0.000 -0.024

    LCAB 1.625 0.074 -0.829 0.367 -0.013 -0.208 -0.043 0.016

    COLL 0.386 0.269 -0.012 0.070 -0.067 0.014 0.257 -0.180

    ILOB 0.609 -0.721 0.882 0.616 -0.006 0.022 -0.009 0.001

    AHUM 1.053 0.992 0.506 -0.109 -0.358 0.028 -0.020 0.052

    LTXE 1.199 0.582 0.388 -0.177 0.417 0.039 -0.106 -0.043

    NOTA: Estos valores están divididos por 100.00

    5. PORCENTAJE DE CONTRIBUCION ABSOLUTA DE LAS VARIABLES A LOS FACTORES:

    V/BLE F1 F2 F3 F4 F5 F6 F7 F8

    DEXO 1.17 0.43 0.66 0.16 8.21 1.07 42.74 7.55

    DINO 0.01 0.02 0.01 0.08 2.48 0.03 8.48 18.38

    DIOC 0.50 0.02 0.58 0.02 0.07 5.16 0.57 33.96

    DAOC 25.54 39.11 0.01 30.78 2.37 1.29 0.29 0.18

    DPOC 1.74 0.40 11.09 6.06 0.08 72.95 0.00 0.61

    LCAB 32.86 0.17 32.19 15.09 0.05 18.22 1.10 0.27

    COLL 1.85 2.26 0.01 0.55 1.28 0.09 39.75 34.23

    ILOB 4.62 16.24 36.43 42.43 0.01 0.21 0.04 0.00

    AHUM 13.81 30.76 11.98 1.33 36.24 0.34 0.23 2.90

    LTXE 17.89 10.59 7.04 3.50 49.19 0.63 6.79 1.92

    6. CARGAS FACTORIALES (CORRELACIONES VARIABLE FACTOR):

    V/BLE F1 F2 F3 F4 F5 F6 F7 F8

    DEXO 0.61 0.23 0.24 -0.07 0.34 -0.10 0.53 0.17

    DINO 0.14 0.10 -0.05 0.11 0.38 0.04 0.48 0.53

    DIOC 0.58 -0.07 -0.32 0.04 -0.05 0.32 0.09 0.52

    DAOC 0.76 -0.59 -0.01 -0.28 -0.05 0.03 0.01 -0.01

    DPOC 0.48 0.14 -0.62 0.30 0.02 0.53 0.00 -0.03

    LCAB 0.87 0.04 -0.44 0.20 -0.01 -0.11 -0.02 0.01

    COLL 0.66 0.46 -0.02 0.12 -0.12 0.02 0.44 -0.31

    ILOB 0.43 -0.50 0.62 0.43 -0.00 0.02 -0.01 0.00

    AHUM 0.67 0.63 0.32 -0.07 -0.23 0.02 -0.01 0.03

    LTXE 0.82 0.40 0.26 -0.12 0.28 0.03 -0.07 -0.03

    7. COMUNALIDAD ACUMULADA PARA r FACTORES (Desde F1 hasta Fr):

    V/BLE F1 F2 F3 F4 F5 F6 F7 F8

    DEXO 0.09 0.11 0.12 0.12 0.15 0.16 0.23 0.23

    DINO 0.00 0.00 0.00 0.00 0.01 0.01 0.03 0.04

    DIOC 0.04 0.04 0.05 0.05 0.05 0.07 0.07 0.10

    DAOC 2.05 3.30 3.30 3.58 3.59 3.59 3.59 3.59

    DPOC 0.14 0.15 0.39 0.44 0.44 0.62 0.62 0.62

    LCAB 2.64 2.65 3.33 3.47 3.47 3.51 3.51 3.51

    COLL 0.15 0.22 0.22 0.23 0.23 0.23 0.30 0.33

    ILOB 0.37 0.89 1.67 2.05 2.05 2.05 2.05 2.05

    AHUM 1.11 2.09 2.35 2.36 2.49 2.49 2.49 2.49

    LTXE 1.44 1.78 1.93 1.96 2.13 2.13 2.15 2.15

    NOTA: Valores divididos por 10000.00

    8. PORCENTAJE DE COMUNALIDAD ACUMULADA PARA r FACTORES (De F1 a Fr):

    V/BLE F1 F2 F3 F4 F5 F6 F7 F8

    DEXO 37.57 43.09 48.66 49.22 60.81 61.82 90.09 92.93

    DINO 1.89 2.79 3.09 4.22 18.43 18.56 41.34 69.32

    DIOC 33.63 34.05 44.36 44.53 44.75 54.90 55.69 82.28

    DAOC 57.14 91.99 91.99 99.66 99.89 99.98 99.99 100.00

    DPOC 22.58 24.65 62.77 71.50 71.55 99.38 99.38 99.47

    LCAB 75.16 75.31 94.86 98.71 98.71 99.94 99.99 100.00

    COLL 43.89 65.22 65.26 66.70 68.04 68.10 87.57 97.08

    ILOB 18.13 43.50 81.44 99.97 99.97 100.00 100.00 100.00

    AHUM 44.47 83.93 94.18 94.66 99.80 99.84 99.85 99.96

    LTXE 66.92 82.70 89.69 91.15 99.27 99.33 99.86 99.94

    9. COEFICIENTES DE FACTORES ESTANDARIZADOS:

    (Solución para variables originales no transformadas)

    V/BLE f1 f2 f3 f4 f5 f6 f7 f8

    DEXO 0.000 0.000 0.001 -0.000 0.005 -0.002 0.016 0.009

    DINO 0.000 0.000 -0.000 0.000 0.003 0.000 0.007 0.014

    DIOC 0.000 -0.000 -0.001 0.000 -0.000 0.005 0.002 0.019

    DAOC 0.002 -0.003 -0.000 -0.006 -0.003 0.002 0.001 -0.001

    DPOC 0.000 0.000 -0.002 0.003 0.000 0.018 0.000 -0.003

    LCAB 0.002 0.000 -0.004 0.004 -0.000 -0.009 -0.003 0.002

    COLL 0.000 0.001 -0.000 0.001 -0.002 0.001 0.015 -0.019

    ILOB 0.001 -0.002 0.004 0.007 -0.000 0.001 -0.001 0.000

    AHUM 0.001 0.003 0.002 -0.001 -0.010 0.001 -0.001 0.006

    LTXE 0.001 0.002 0.002 -0.002 0.012 0.002 -0.006 -0.005

    10. COORDENADAS DE INDIVIDUOS PROYECTADOS SOBRE PRIMEROS PLANOS:

    (Solucion para variables originales no transformadas)

    (PRIMERA SOLUCION SOBRE PLANO FACTORIAL UNITARIO)

    COORD. ORIGINALES CENTRADAS | COORDENADAS FACTORIALES

    (SOBRE EL PLANO X1-X2): | (SOBRE EL PLANO F1-F2):

    #OBS X1 X2 | F1 F2

    1 39.1633 4.1600 308.4647 -676.3719

    2 -23.8367 -19.4400 -392.6139 -155.3205

    3 -31.7367 -27.3400 -376.6340 62.0936

    4 23.3633 -3.6400 -135.2741 -86.0639

    5 7.6633 -11.5400 44.3162 101.4354

    6 -16.0367 12.0600 -156.1795 67.0999

    7 -39.6367 27.8600 32.4427 94.1382

    8 -110.4367 -11.5400 -38.0020 -12.6348

    9 -63.2367 -11.5400 -145.4060 -73.4327

    10 -23.8367 -11.5400 -33.9147 -133.0950

    11 -25.0367 -9.5400 -155.4726 -45.8328

    12 -55.3367 4.1600 -524.2864 -52.4279

    13 -15.9367 -61.0400 -61.9010 31.0893

    14 15.4633 -3.6400 -66.6662 156.7850

    15 70.6633 27.8600 247.5191 221.2107

    16 31.2633 -3.6400 175.8114 211.9338

    17 -0.2367 -43.0400 17.2343 70.5800

    18 62.7633 12.0600 191.0872 75.2528

    19 -47.5367 -11.5400 -296.9643 188.2739

    20 78.4633 27.8600 395.1997 156.5277

    21 62.7633 43.5600 -112.6327 62.0939

    22 7.6633 -11.5400 552.1767 -177.7371

    23 70.6633 -3.6400 479.0572 189.8097

    24 -23.8367 -27.3400 -95.1172 121.2177

    25 -0.2367 12.0600 91.9968 -25.5972

    26 -110.4367 4.1600 -542.4581 -264.4037

    27 46.9633 51.4600 67.3265 33.5292

    28 -0.2367 12.0600 91.7368 -25.4129

    29 62.9633 43.6600 -112.6243 61.8431

    30 7.7633 -11.4400 551.7775 -176.5833

    11. DISTANCIA DE CADA PUNTO AL ORIGEN Y COSENOS CUADRADOS:

    (Solucion para variables originales no transformadas)

    #OBS DISTANCIA COS2-F1 COS2-F2 COS2-F3 COS2-F4 COS2-F5

    1 798.3544 0.1493 0.7178 0.0401 0.0826 0.0000

    2 458.9522 0.7318 0.1145 0.0112 0.0096 0.0443

    3 619.3934 0.3697 0.0100 0.5806 0.0029 0.0223

    4 340.8316 0.1575 0.0638 0.5440 0.2018 0.0068

    5 129.9518 0.1163 0.6093 0.0002 0.0030 0.1367

    6 183.0733 0.7278 0.1343 0.1115 0.0010 0.0029

    7 131.8562 0.0605 0.5097 0.0066 0.0110 0.1803

    8 183.0629 0.0431 0.0048 0.0214 0.0003 0.7571

    9 194.6592 0.5580 0.1423 0.1617 0.0200 0.0112

    10 295.0976 0.0132 0.2034 0.0320 0.6839 0.0051

    11 205.3898 0.5730 0.0498 0.1687 0.0674 0.0001

    12 575.3153 0.8305 0.0083 0.1047 0.0305 0.0183

    13 172.5112 0.1288 0.0325 0.0653 0.0593 0.5306

    14 335.1969 0.0396 0.2188 0.4632 0.1775 0.0080

    15 335.9610 0.5428 0.4335 0.0014 0.0000 0.0019

    16 316.0621 0.3094 0.4496 0.1578 0.0742 0.0055

    17 164.0829 0.0110 0.1850 0.0404 0.3148 0.1254

    18 232.1617 0.6775 0.1051 0.0291 0.0080 0.1728

    19 414.7394 0.5127 0.2061 0.1827 0.0758 0.0084

    20 449.3825 0.7734 0.1213 0.0087 0.0837 0.0002

    21 172.3821 0.4269 0.1298 0.0579 0.0006 0.0315

    22 590.7747 0.8736 0.0905 0.0092 0.0033 0.0000

    23 528.1866 0.8226 0.1291 0.0247 0.0003 0.0048

    24 268.5873 0.1254 0.2037 0.4295 0.2147 0.0017

    25 224.6041 0.1678 0.0130 0.6554 0.1198 0.0081

    26 641.0275 0.7161 0.1701 0.0728 0.0170 0.0057

    27 168.9111 0.1589 0.0394 0.0037 0.0673 0.2818

    28 224.0464 0.1677 0.0129 0.6557 0.1188 0.0085

    29 172.4513 0.4265 0.1286 0.0580 0.0004 0.0315

    30 590.0569 0.8745 0.0896 0.0095 0.0031 0.0000

    GRAFICA DE VARIABLES:

    Representación gráfica de las variables en el plano factorial F1F2

    (Las flechas han sido agregadas para mayor facilidad de interpretación)

    GRAFICA DE INDIVIDUOS:

    Representación gráfica de individuos en el plano factorial F1F2

    GRAFICA DE CARGAS FACTORIALES:

    Representación gráfica de Cargas (K) en el plano factorial F1F2 

    EXPLICACIÓN DE LAS SALIDAS ANTERIORES – ESM-PLUS:

    Salida 1

    Estos valores corresponden a las medias y las varianzas estimadas de cada una de las variables consideradas en el análisis, junto con la nomenclatura usada por el programa para la representación gráfica de ellas: V01, V02, etc

    Salida 2

    Representa los valores propios de la matriz , como estimaciones de , ordenados de mayor a menor, junto con los valores acumulados de ellos y el correspondiente porcentaje acumulado que representan de la varianza total, dada en este caso por VT = 151888.8. Como puede observarse en este caso el primero y segundo valor propio cubren un 73.9732% de la varianza total, valor que se considera alto. En consecuencia, podrían retenerse los dos primeros factores los cuales explican 73.9732% del problema. Se pierde entonces un 26% de la información pero se logra reducir la dimensión del problema de 10 (número original de variables) a 2. Se ha "aplanado" el problema logrando mantener más del 70% de la representabilidad del mismo. Nótese que, según el criterio de Kaiser, sólo los tres primeros factores tienen varianza por encima del promedio 15188.88. En consecuencia, este criterio recomienda retener las tres primeras componentes.

    Salida 3

    Está conformada por la matriz de rotación. En este caso cada columna es un vector unitario y dos cualesquiera de ellas son ortogonales. Representan por tanto, vectores de una base ortonormal de . Además cada columna contiene los coeficientes de las variables originales centradas para la conformación de la correspondiente componente principal.

    Salida 4

    Los vectores reescalados son vectores propios de S que han sido modificados en su longitud de tal manera que su norma sea igual al correspondiente valor propio. Aunque la matriz conformada por tales vectores -llamada matriz de coordenadas por algunos paquetes- no es una matriz de rotación, presenta la ventaja de que cada coeficiente es proporcional a la contribución que hace la correspondiente variable a las componentes principales. Por ejemplo, en la formación del factor la variable que más aporta es DAOC, le sigue AHUM.

    Salida 5

    Esta tabla presenta de una manera más expedita la importancia de cada variable en la conformación de cada componente, medida por la contribución de ella a la componente. Es el cuadrado del coeficiente de la variable, expresado como porcentaje. Como puede observarse la primera componente está formada en más de un 90% por LCAB, DAOC, LTXE y AHUM; mientras que la segunda componente lo es en más del 96% por DAOC, AHUM ILOB y LTXE. Como conclusión, diremos que las medidas cefalotoráxicas son las más importantes para describir a los animales examinados.

    Salida 6

    Esta tabla contiene los valores de las correlaciones de cada una de las variables originales con cada una de las componentes principales o factores. Cuando una variable está fuertemente correlacionada con un factor su representación gráfica vectorial es tal que ella se sitúa muy cerca del eje correspondiente, contribuyendo entonces casi exclusivamente a la conformación de dicho factor. Esta contribución es tanto mayor cuanto más alejada del origen se encuentre pues en tal caso su proyección sobre el eje es mayor.

    Salida 7

    Se define la comunalidad entre y como la porción de varianza que es compartida por estas dos variables. Este concepto es importante pues dicho valor es una medida de la explicación de la variable por el factor . En particular, si se retienen r de los p factores es de interés conocer el grado de explicación de cada una de las variables originales por los factores retenidos juntos. Esto es la comunalidad acumulada por los r factores retenidos. En el caso, por ejemplo, al retener los dos primeros factores se explica un total de 3.30 de la varianza de DAOC. De igual manera se explica un total de 2.65 de la varianza de LCAB.

    Salida 8

    La magnitud de la comunalidad acumulada, dada por la tabla anterior es mucho más comprensible si se expresa en términos de porcentajes. Esto es lo que muestra la tabla 8. Por ejemplo, diríamos de acuerdo con ella, que dos factores explican el 91.99% de la varianza de DAOC y el 75.31% de la varianza de LCAB, etc.

    Salida 9.

    Los factores son variables aleatorias ya que son combinaciones lineales de los centrados. Esto implica que pueden ser estandarizados en la forma usual. Se pueden entonces construir los factores estandarizados de acuerdo con la expresión:

    La tabla correspondiente proporciona los coeficientes que expresan cada factor estandarizado en términos de las variables originales centradas, esto es, en la forma:

    Esta salida es la que de ordinario presentan algunos paquetes como Statistica .

    Salida 10

    Estas tablas corresponden a las coordenadas de las dos primeras componentes de los individuos tanto en el plano original como en el plano factorial . Estas últimas en particular son utilizadas para producir el mapa de individuos. El programa ESM produce además un archivo de nombre PLANF123.DAT en el que se encuentran las coordenadas de los individuos en los tres primeros ejes factoriales y que pueden ser utilizadas con fines gráficos o de clasificación en tres dimensiones. Este archivo siempre se almacena dentro del directorio del programa ESM.

    Salida 11

    Esta tabla contiene las distancias a las que se encuentra cada individuo respecto al centro de gravedad de la nube, es decir, respecto al origen de coordenadas del espacio factorial. Igualmente presenta los cosenos cuadrados para los primeros cinco factores, los cuales en la mayor parte de los casos son más que suficientes para lograr una adecuada representación de cualquier problema. El grado de representabilidad de un individuo en el espacio factorial formado por los r primeros factores se logra sumando los r cosenos cuadrados correspondientes y teniendo en cuenta que la máxima representabilidad de un individuo es 1.

    Salida 12

    Cuando se opta por esta salida, ella corresponde al mapa perceptual en dos dimensiones de las variables. Su utilidad, como ya se dijo, estriba en la presentación simple y efectiva de relaciones de dependencia entre ellas. Aquellas variables que formen ángulos rectos o aproximadamente rectos son independientes estadísticamente, es decir, no están correlacionadas. Las demás sí están correlacionadas y la magnitud de dicha correlación es proporcional al valor del coseno del ángulo que ellas formen. Esta regla es válida incluso para las variables y los ejes factoriales.

    Salida 13

    El mapa perceptual de individuos proyectados sobre el primer plano factorial es una excelente ayuda para visualizar relaciones de proximidad entre ellos. Estas relaciones serán tanto más fieles cuanto mayor sea el porcentaje de varianza total explicada por los dos primeros factores (ver salida 2).

    NOTA:

    Cuando se realiza ACP normado las salidas anteriores siguen teniendo las mismas interpretaciones pero muchos resultados se modifican de acuerdo con los nuevos valores de las varianzas de las variables originales que, en tal caso, toman el valor de 1 para todas ellas.

    UNA APLICACIÓN DEL ACP:

    Con frecuencia, después de un Manova (Análisis multivariado de varianza) para comparar tratamientos, si se rechaza la hipótesis de igualdad de medias, surge la pregunta de cómo comparar los diferentes tratamientos para decidir cuál de ellos es el mejor o el peor.

    No existen técnicas de comparación múltiple que, de manera directa, nos digan cuál es el mejor o el peor tratamientos, debido a que en no hay orden.

    Una solución podría ser la construcción de una variable indicadora (índice) como combinación lineal de las variables del problema. Tomar esta variable como una respuesta que resuma toda la información de las p variables del problema y realizar un anova univariado, tomando tal variable como representativa de la información que tienen todas las variables del problema. La construcción de una tal variable indicadora requeriría de discusión y análisis acerca de la importancia de cada variable dentro del problema. Esto puede ser discutido y analizado por especialistas que decidan qué peso asignar a cada variable

    Desde este punto de vista, el factor F1, cuando explica un alto porcentaje de variabilidad, sería la variable resumen que reúne la mayor parte de la información contemplada en todas las variables originales del problema.

    En el caso mencionado anteriormente, se haría ANOVA sobre las coordenadas de los individuos en el primer eje factorial, lo que ayudaría a clasificar los grupos.

    Veamos el siguiente ejemplo: se tienen medidas antropológicas de tres grupos en las siguientes variables. CRANE, ANBRA, BRAMA, PIERN y MANO

    GRUPO 1 GRUPO 2 GRUPO 3

    62 28 64 82 18 75 29 60 70 39 92 46 45 99 67

    65 32 65 87 15 78 26 72 65 26 88 57 51 89 54

    58 30 63 78 16 86 27 85 68 27 90 78 44 83 58

    76 27 66 75 19 74 32 84 79 36 96 43 34 79 68

    48 25 65 78 12 75 25 86 78 35 87 59 38 77 55

    58 31 67 79 14 81 31 88 84 28 98 65 40 69 43

    Criterio Valor F Approx. GL Hipot GL Error Valor P

    Pillai 1.86984 34.47644 10.00 24.00 .000

    Hotelling 38.91986 38.91986 10.00 20.00 .000

    Wilks .00318 36.80710 10.00 22.00 .000

    Roys .96739

    Como puede deducirse de los valores anteriores, se rechaza la igualdad de medias multivariadas. y, en consecuencia, se desea saber cuál de los tres grupos es el mayor y cuál el menor

    En este caso se hace ACP y se observa que el primer factor F1 explica un 72.5% de la variabilidad. En consecuencia, pueden calcularse los puntajes de los individuos respecto al primer factor y utilizarlos como variable única que reúne el 72% de la información del problema, para hacer ANOVA sobre ella.

    ANALISIS DE COMPONENTES PRINCIPALES

    Archivo Analizado: MEDIDAS.DAT ACP NO-NORMADO

    A partir de variables originales (Matriz de varianza-covarianza)

    Total de observaciones leídas en el archivo de datos: 18

    1. RESUMEN DE VARIABLES NO TRANSFORMADAS:

    VARIABLE: MEDIA: VARIANZA:

    V01=CRANE 77.0556 203.820261

    V02=ANBRA 38.3889 256.251634

    V03=BRAMA 62.0556 294.761438

    V04=PIERN 78.8333 66.735294

    V05=MANO 35.0000 350.235294

    2. VALORES PROPIOS:

    Valor Propio: Acumulado: Porcent.Acum:

    849.9824 849.9824 72.5362

    159.2916 1009.2741 86.1299

    78.0709 1087.3450 92.7924

    65.0688 1152.4138 98.3453

    19.3901 1171.8039 100.0000

    Promedio (Kaiser): 234.3608

    3. COEFICIENTES uij DE VARIABLES PARA CADA COMPONENTE Fj:

    (SOLUCION ORTOGONAL DE VECTORES UNITARIOS)

    ( Fj = u1j*V01 + u2j*V02 + … + upj*V0p )

    V/BLE F1 F2 F3 F4 F5 F6 F7 F8

    CRANE 0.404 0.546 -0.330 -0.124 0.643 — — —

    ANBRA 0.486 -0.236 -0.430 0.698 -0.190 — — —

    BRAMA -0.487 0.695 -0.060 0.476 -0.223 — — —

    PIERN 0.078 -0.070 0.720 0.495 0.475 — — —

    MANO 0.598 0.398 0.429 -0.160 -0.524 — — —

    De acuerdo con lo anterior, los puntajes sobre el primer factor se calcularían, individuo por individuo, mediante el siguiente procedimiento MATLAB:

    y =

    62 28 64 82 18

    65 32 65 87 15

    58 30 63 78 16

    76 27 66 75 19

    48 25 65 78 12

    58 31 67 79 14

    75 29 60 70 39

    78 26 72 65 26

    86 27 85 68 27

    74 32 84 79 36

    75 25 86 78 35

    81 31 88 84 28

    92 46 45 99 67

    88 57 51 89 54

    90 78 44 83 58

    96 43 34 79 68

    87 59 38 77 55

    98 65 40 69 43

    m = mean(y)

    m =

    77.0556 38.3889 62.0556 78.8333 35.0000

    for j=1:18;

    mm(j,:) = m;

    end

    mm

    mm =

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    77.0556 38.3889 62.0556 78.8333 35.0000

    c=y-mm

    c =

    -15.0556 -10.3889 1.9444 3.1667 -17.0000

    -12.0556 -6.3889 2.9444 8.1667 -20.0000

    -19.0556 -8.3889 0.9444 -0.8333 -19.0000

    -1.0556 -11.3889 3.9444 -3.8333 -16.0000

    -29.0556 -13.3889 2.9444 -0.8333 -23.0000

    -19.0556 -7.3889 4.9444 0.1667 -21.0000

    -2.0556 -9.3889 -2.0556 -8.8333 4.0000

    0.9444 -12.3889 9.9444 -13.8333 -9.0000

    8.9444 -11.3889 22.9444 -10.8333 -8.0000

    -3.0556 -6.3889 21.9444 0.1667 1.0000

    -2.0556 -13.3889 23.9444 -0.8333 0

    3.9444 -7.3889 25.9444 5.1667 -7.0000

    14.9444 7.6111 -17.0556 20.1667 32.0000

    10.9444 18.6111 -11.0556 10.1667 19.0000

    12.9444 39.6111 -18.0556 4.1667 23.0000

    18.9444 4.6111 -28.0556 0.1667 33.0000

    9.9444 20.6111 -24.0556 -1.8333 20.0000

    20.9444 26.6111 -22.0556 -9.8333 8.0000

    for j=1:18;

    p(j)=c(j,1)*0.404 + c(j,2)*0.486 – c(j,3)*0.487 + c(j,4)*0.078 +

    c(j,5)*0.598;

    end

    p=p'

    p =

    -21.9974

    -20.7324

    -23.6624

    -17.7494

    -33.4984

    -26.2424

    -2.6894

    -16.9434

    -18.7244

    -14.4154

    -19.0634

    -18.4154

    38.7516

    31.0056

    47.3526

    43.3046

    37.5666

    36.1526

    O lo que es lo mismo, tomando las primeras coordenadas factoriales de la tabla siguiente, producida por ESM-Plus (el software mencionado al principio) junto con la variable de clasificación en los grupos originales:

    10. COORDENADAS DE INDIVIDUOS PROYECTADOS SOBRE PRIMEROS PLANOS:

    (PRIMERA SOLUCION SOBRE PLANO FACTORIAL UNITARIO)

    COORD. ORIGINALES CENTRADAS | COORDENADAS FACTORIALES

    (SOBRE EL PLANO X1-X2): | (SOBRE EL PLANO F1-F2):

    #OBS X1 X2 | F1 GRP F2

    1 -15.0556 -10.3889 -21.9899 1 -11.4097

    2 -12.0556 -6.3889 -20.7248 1 -11.5627

    3 -19.0556 -8.3889 -23.6549 1 -15.2789

    4 -1.0556 -11.3889 -17.7428 1 -1.2517

    5 -29.0556 -13.3889 -33.4893 1 -19.7642

    6 -19.0556 -7.3889 -26.2359 1 -13.6018

    7 -2.0556 -9.3889 -2.6882 2 1.8722

    8 0.9444 -12.3889 -16.9418 2 7.7282

    9 8.9444 -11.3889 -18.7275 2 21.0825

    10 -3.0556 -6.3889 -14.4219 2 15.4702

    11 -2.0556 -13.3889 -19.0685 2 18.7291

    12 3.9444 -7.3889 -18.4198 2 18.7755

    13 14.9444 7.6111 38.7474 3 5.8530

    14 10.9444 18.6111 30.9995 3 0.7620

    15 12.9444 39.6111 47.3414 3 -5.9534

    16 18.9444 4.6111 43.3033 3 2.8948

    17 9.9444 20.6111 37.5632 3 -8.0536

    18 20.9444 26.6111 36.1504 3 -6.2916

    GRAFICA DE INDIVIDUOS:

     

    Representación gráfica de individuos en el plano factorial F1F2

    La gráfica anterior muestra cómo los individuos forman tres (o dos ?) grupos diferentes entre sí, a saber, primer grupo: individuos 1 a 6. Segundo grupo: individuos 7 a 12 y tercer grupo: individuos 13 a 18, los cuales se proyectan sobre el primer eje, poniendo de manifiesto sus diferencias, como lo confirma el siguiente ANOVA realizado con los puntajes o primeras coordenadas:

    ANALISIS DE VARIANZA DE UNA VIA – (Diseño Completo Aleatorio)

    ANOVA: VAR-Clasif: GRUPO VAR-Análisis: SCORES

    TABLA ANOVA:

    FUENTE: SUM.CUADR GL CUADR.MEDIO F

    Modelo 13940.4596 2 6970.2298 205.3095

    Error 509.2479 15 33.9499 *****

    Total 14449.7075 17 ***** *****

    R2 = .964757 F tiene 2 y 15 Grados de libertad

    Valor P de probabilidad: 0.00000000

    Valor exacto del CME = 33.94986100499991

    INTERVALOS DE CONFIANZA PARA MEDIAS EN CADA TRATAMIENTO:

    Variable de analisis: SCORES Var Clasific: GRUPO

    Numero de Tratamientos: 3

    MEDIAS E INTERVALOS PARA TRATAMIENTO # 1 :

    Media: -23.973 Err.Stand: 2.378720279372921

    Inter90%: [ -28.1429, -19.8031]

    Inter95%: [ -29.0421, -18.9039]

    Inter99%: [ -30.9831, -16.9629]

    MEDIAS E INTERVALOS PARA TRATAMIENTO # 2 :

    Media: -15.0447 Err.Stand: 2.378720279372921

    Inter90%: [ -19.2146, -10.8748]

    Inter95%: [ -20.1138, -9.9756]

    Inter99%: [ -22.0548, -8.0346]

    MEDIAS E INTERVALOS PARA TRATAMIENTO # 3 :

    Media: 39.0175 Err.Stand: 2.378720279372921

    Inter90%: [ 34.8476, 43.1874]

    Inter95%: [ 33.9484, 44.0866]

    Inter99%: [ 32.0074, 46.0276]

    COMPARACION DE MEDIAS POR PARES. MINIMAS DIFERENCIAS SIGNIFICATIVAS (LSD):

    Ho: μ(i)= μ(j) H1: μ(i) <> μ j) *DS* = Difieren signif. *ND* = No dif

    NOTA: Se presentan todas las combinaciones de tratamientos por pares.

    MEDIA DE TRATAM( 2 ) – MEDIA DE TRATAM( 1 ):

    Diferencia de medias = 8.92831667

    LSD(α=0.10) = 5.8971 *DS*

    LSD(α=0.05) = 7.1687 *DS*

    LSD(α=0.01) = 9.9138 *ND*

    MEDIA DE TRATAM( 3 ) – MEDIA DE TRATAM( 1 ):

    Diferencia de medias = 62.99046667

    LSD(α=0.10) = 5.8971 *DS*

    LSD(α=0.05) = 7.1687 *DS*

    LSD(α=0.01) = 9.9138 *DS*

    MEDIA DE TRATAM( 3 ) – MEDIA DE TRATAM( 2 ):

    Diferencia de medias = 54.06215000

    LSD(α=0.10) = 5.8971 *DS*

    LSD(α=0.05) = 7.1687 *DS*

    LSD(α=0.01) = 9.9138 *DS*

    Las técnicas usuales de comparaciones múltiples nos dirían que el grupo de mayor media es el tercero y el de menor media el primero aunque las diferencias de éste con el segundo no son tan fuertes. Esto se ve reflejado en la última gráfica si los individuos se proyectan sobre el eje horizontal .

    Bibliografía

    1. Dillon W., M. Goldstein; Multivariate Análisis. John Wiley & Sons. (1984)
    2. Escofier B., J. Pages; Análisis Factoriales Simples y Múltiples. Universidad del País Vasco. Bilbao (1992)
    3. Lebart, Morineau et Piron; Statistique Exploratoire Multidimensionnelle. Dunod. París. 1998
    4. Lozano L.; Estudio Bio-ecológico de los vectores de la enfermedad de Chagas en el Municipio de Coyaima – Tolima. Tesis de grado en Biología. Universidad del Tolima Ibagué (1999).

     

    Artículo presentado por

    Jairo Alfonso Clavijo Méndez

    Profesor de Estadística

    Universidad del Tolima – Ibagué, Colombia