Importancia del clima laboral en las empresas de servicio (página 3)
Enviado por Ing.Licdo. Yunior Andrés Castillo Silverio
El principal problema de análisis de factores es determinar el número de factores que se deben considerar. Lo anterior, está relacionado con la aplicación que le demos a nuestro análisis y en evaluar que nos interesa más: si tener un número menor de dimensiones o explicar una parte considerable de la variabilidad. Sin embargo existen una serie de criterios para determinar el número óptimo de factores. Algunos de estos criterios son:
1. Hacer una gráfica de "SCREE" de los eigenvalores, obtenidos a partir de los componentes principales. Es decir, graficar la variabilidad explicada por cada uno de los componentes y tomar las componentes hasta cuando se transforma en un "codo". Es decir, que al tomar una componente más la aportación de la varianza explicada marginal es mínima.
2. Extraer las componentes que tengan un eigenvalor mayor a uno, cuando las variables estén estandarizadas. Este criterio se basa en pensar que cada componente por lo menos debe explicar una variable.
3. Extraer las componentes necesarias para explicar hasta cierto punto de porcentaje de varianza, fijado previamente según la aplicación del problema.
Podemos estandarizar las componentes, de tal modo que la varianza de cada una de ellas sea igual a uno. En el caso del modelo de factores esta transformación nos serviría para calcular las comunalidades, es decir la varianza explicada por el modelo de cada una de las variables originales. De lo anterior tenemos el siguiente modelo:
Una vez encontrado el número óptimo de componentes se construye una matriz factorial; la cual contiene las cargas factoriales o "pesos" que son los eigenvalores ai multiplicado por la raíz del eigenvalor ?i. Estos pesos representan las correlaciones entre las variables y factores. Mediante las cargas factoriales se pueden comparar los factores entre si. Además de que cumplen con la propiedad que la suma al cuadrado de las cargas factoriales son igual al valor de cada componente.
(27)
A partir de las cargas factoriales se calculan las comunalidades (hi) que es la proporción de varianza de la i-esima variable original Xi que es explicada por el modelo de factores. Las comunalidades se calculan de la siguiente forma:
(28)
Ejemplo Práctico – Análisis de Factores.
Para realizar un modelo de factores en el programa SPSS se siguen los siguientes pasos: una vez cargados los datos en el programa, en la barra de menú, de la parte superior de la pantalla, seleccionamos "Analyze"; posteriormente seleccionamos "data Reduction"; y finalmente seleccionamos "Factor ".
Imagen SPSS 2.4.1 Selección de un Modelo de Componentes principales
Aparecerá un cuadro de dialogo como el siguiente:
Imagen SPSS 2.4.2 Cuadro de Dialogo de un Modelo de Factores
En la lista del lado izquierdo tenemos todas las variables de la base de datos. Por medio del cursor seleccionamos las variables que necesitamos incluir en nuestro modelo de Factores Es importante recordar que necesitamos variables continuas en este tipo de modelos.
En la misma pantalla, en la parte inferior, se puede determinar ciertos parámetros del modelo de Componentes Principales. Al presionar, en la parte inferior "Extraction" aparecerá otro cuadro de dialogo como el siguiente:
Imagen SPSS 2.4.3 Cuadro de "Extraction" de un Modelo de factores
En este cuadro de dialogo se debe elegir como método "Principal Components". El programa da la opción de utilizar la matriz de varianzas o la matriz de covarianza de los datos.
Es importante mencionar que en el caso de Factores, a diferencia del modelo de Componentes Principales, el número de factores es menor al número de variables incluidas en el modelo. El programa SPSS tiene dos formas de establecer el número de factores. Determinar un valor mínimo para los eigenvalores, generalmente de la unidad; o el investigador decide el número de factores en el modelo.
El resto de los parámetros para correr un modelo de Factores en SPSS es similar a los que se comentaron en el ejemplo de Componentes Principales.
Para ejemplificar la técnica de Análisis de Factores nuevamente vamos a considerar la base de datos por estados. Anteriormente, al aplicar la técnica de componentes principales observamos que los las variables están sumamente correlacionadas. Por lo tanto, la intensión de aplicar el análisis de factores es "resumir" la información.
Para realizar el Análisis de Factores vamos a considerar sólo las dos primeras componentes principales; ya generar el 88% de la variabilidad de los datos. Es importante mencionar que este criterio puede ser propuesto por el investigador dependiendo de los resultados que requiera.
Tabla 2.4.1 Análisis de Coeficientes.
La tabla de comunalidades muestra el porcentaje de información que contiene el Análisis de Factores de cada una de las variables. Por ejemplo el modelo explica casi al 98% las variables de Población Total y Número de Unidades Económicas. Por otro lado el modelo sólo explica el 74% de la variable número de universidades.
Tabla 2.4.2 Varianza Explicada por el modelo de Factores.
La tabla de eigenvalores muestra la variación explicada de cada una de las componentes consideradas por el Análisis Factorial. En este caso el modelo consta de dos componentes (previamente definido así el modelo) las cuales explican el 88% de la variabilidad de los datos.
Tabla 2.4.3 Matriz de componentes del modelo de Factores.
La matriz de componentes muestra el grado de asociación entre cada una de las componentes y las variables del modelo. La primera componente tiene una mayor asociación con la variable de Número de Universidades y de forma inversa con la Población con más de 5 Salarios Mínimos y la Población Económicamente activa. Por su parte, la segunda componente está relacionada con la Población Total y el Número de Unidades Económicas principalmente.
Es importante mencionar que las componentes son combinaciones lineales de todas las variables incluidas en el modelo. Por lo anterior, las componentes tienen relación con todas las variables del modelo. Lo primordial en el análisis de factores es que las componente son octogonales entre sí; es decir, la correlación entre cualquier componente es igual a cero.
Rotación de Factores.
La rotación de ejes se realiza para facilitar la interpretación de los factores. Típicamente la rotación de aplica en el análisis factorial. Normalmente se aconseja rotar los ejes cuando:
1. Las cargas de los factores son muy próximas a cero por lo que no se identifican de manera clara una relación con alguna variable.
2. La misma variable presenta cargas elevadas con varios factores.
3. Existen factores con cargas factoriales similares en la misma variable.
La rotación de las componentes pueden ser de dos tipos: ortogonales y oblicuas. Las rotaciones ortogonales mantienen la comunalidades (variabilidad explicada de cada una de las variables) de cada variables y lo único que cambia son las cargas factoriales; ya que en la cual se mantienen los ejes a 90 grados. Se pueden rotar los ejes sin mantener los 90 grados entre los ejes de referencia.
Las rotaciones oblicuas cambian la variabilidad explicada por las variables ya que modifican las cargas factoriales y también las comunalidades. Es decir, no hay restricción de ortogonalidad.
Gráfica 2.4.1 Rotación de Factores
En la gráfica anterior se observan dos conglomerados de variables (V1 y V2) y (V3, V4 y V5), sin embargo con los factores sin rotar no es muy obvia su ponderación o ponderación de los factores I y II. Después de la rotación de los ejes de factores, las variables 3, 4 y 5 tienen una ponderación o ponderación fuerte de factor I, y las variables 1 y 2 tienen una ponderación o ponderación fuerte en el factor II. Siendo más obvia la distinción entre conglomerados en dos grupos[16]
Entre las rotaciones ortogonales de ejes más utilizadas se encuentran:
a) Quartimax: para simplificar las filas de la matriz; o sea, que Quartimax se enfoca a rotar los factores iniciales de manera que las variables tengan la mayor ponderación posible de un factor y la mínima de los otros. Aunque este método no ha sido eficiente.
b) Varimax: se centra en simplificar las columnas de la matriz factorial. La máxima simplificación posible se logra cuando solo hay 1"s y 0"s en la columna. Es decir que Varimax maximiza la suma de variancias de ponderación requeridas de la matriz factorial. Este método ha probado ser un método analítico efectivo para obtener una rotación ortogonal de factores.
c) Equimax: Es un compromiso entre las anteriores. Trata de simplificar los renglones y las columnas, no se utiliza frecuentemente.
Ejemplo Práctico – Rotación de Factores.
Para ejemplificar la técnica de Rotación de Factores utilicemos el análisis factorial del tema anterior. El objetivo de la rotación es encontrar relaciones más directas entre las componentes y las variables que explican estos.
Apliquemos una rotación de Varimax al análisis de factores anterior. Los resultados que obtenemos son los siguientes:
Tabla 2.4.4 Comunalidades del modelo rotado
Es importante mencionar que el realizar una rotación en el modelo de análisis de factores no altera la cantidad de información extraída a partir de las variables iniciales del modelo.
Tabla 2.11 Varianza Explicada del modelo rotado
Tabla 2.4.5 varianza explicada por el modelo
De la misma forma, el realizar una rotación no altera la cantidad de información resumida por el modelo. En la tabla se muestran que se llegan a los mismos resultados que el modelo anterior. La variabilidad explicada por las dos componentes sigue siendo del 88%.
Tabla 2.4.6 Matriz de Componentes del modelo rotado
En la matriz de componentes rotados observamos como las relaciones entre las componentes y las variables sen más altas. La primera componente se relaciona, con más del 90%, respecto a las variables de Población Económicamente Activa y la Población con más de 5 Salarios Mínimos; mientras que también se relaciona inversamente con el Número de Universidades. Mientras que la segunda componente se relaciona directamente con la Población Total y el Número de Unidades Económicas.
Es importante mencionar que al aplicar una rotación en el análisis de factores puede cambiar la relación entre las variables y las componentes. En el ejemplo, al aplicar la rotación, la primera componente aumentó la relación respecto a la variable Población Económicamente Activa, mientras que disminuyó la relación respecto al Número de Universidades.
Finalmente se presenta la gráfica de los componentes rotados
Gráfica 2.4.2 Rotación de Factores – Ejemplo
En la gráfica podemos observar como las variables de población y Unidades Económicas están directamente relacionadas con la Componente 1; mientras que la Componente 2 está asociada con las variables de PEA y salarios mínimos. Es importante mencionar que la variable de número de Universidades está relacionada con ambas componentes en el cuarto cuadrante de la gráfica.
2.5 ALFA DE CRONBACH
En muchas ocasiones a la hora de recabar información sobre aspectos diversos de la vida de los individuos, se utilizan instrumentos tales como escalas, test, listados de adjetivos, etc. Construidos por una serie de Ítems o enunciados que deben estar relacionados entre si y cuya puntuaciones individuales previamente sumadas y/o promediadas nos dan el valor global de los individuos en el citado instrumento. Como ejemplo podemos citar encuestas de satisfacción, test psicométricos, mediciones de clima laboral, etc. Se dice que el instrumento es fiable cuando con el mismo se obtienen resultados similares al aplicarlo dos o más veces al mismo grupo de individuos. Una de las medidas más utilizadas para medir la fiabilidad de la información es el Alfa de Cronbach basada en la consistencia interna de la información.
El coeficiente Alfa de Cronbach se obtiene como promedio de los coeficientes de correlación de Pearson entre todos los item de la escala si las puntuaciones de los mismos están estandarizadas o como promedio de las covarianzas si no lo están.
Los valores de este coeficiente oscilan entre 0 y 1 donde la unidad implica una alta fiabilidad información. Únicamente obtendremos valores negativos si la relación entre los ítems es negativa; en cuyo caso no procedería a calcula un índice de fiabilidad de la escala. Como se puede observar en las ecuaciones anteriores el valor de Alfa de Cronbach depende tanto del número de ítems en la escala como de la correlación entre los mismos o de u varianza o covarianza. Es decir que podemos obtener un coeficiente elevado partiendo de los mismos valores promedio pero aumentando el número de ítems de la escala. Una de las formas para obtener el Alfa de Cronbach en el programa estadístico SPSS es mediante un modelo de Correspondencias Múltiple. Para lo anterior, se siguen los siguientes pasos: una vez cargados los datos en el programa, en la barra de menú, de la parte superior de la pantalla, seleccionamos "Analyze"; posteriormente seleccionamos "Data Reduction"; y finalmente seleccionamos "Optimal Scaling ".
Imagen SPSS 257.1 Selección de un Modelo de Correspondencias Múltiple
Aparecerá un cuadro de dialogo como el siguiente:
Imagen SPSS 2.5.2 Cuadro de Dialogo de un Modelo de Correspondencia Múltiple
En este cuadro para realizar un Análisis de Correspondencia Múltiple es necesario seleccionar: "All variables multiple nominal" y "One set". En la parte inferior aparecerá la leyenda: "Multiple Correspondence Analysis". Aparecerá la siguiente pantalla:
Imagen SPSS 2.5.3 Cuadro de Dialogo de un Modelo de Correspondencia Múltiple
En la lista del lado izquierdo tenemos todas las variables de la base de datos. Por medio del cursor seleccionamos las variables categóricas que necesitamos incluir en nuestro modelo del Análisis de Correspondencia Múltiple y las ubicamos en el cuadro "Análisis Variable". Finalmente seleccionamos "OK".
El coeficiente de Alfa de Cronbach aparecerá dentro de la tabla del modelo general del Análisis de Correspondencias Múltiples.
Nota: El ejemplo práctico del Alfa de Cronbach se realizó junto con el ejemplo práctico de componentes principales Múltiples.
2.6 ANÁLISIS DE CORRESPONDENCIAS.
Como mencionamos anteriormente, las técnicas de análisis de componentes principales son técnicas multivariadas que tienen por objeto reducir las dimensiones de una tabla de datos formada por variables cuantitativas. Si las variables son cualitativas estaríamos hablando de análisis de correspondencias.
Cuando se estudia conjuntamente el comportamiento de dos variables cualitativas nos referimos al análisis de correspondencias simple, pero este análisis puede ser generalizado para el caso de que se disponen de un número mayor de variables; en cuyo caso estamos ante el análisis de correspondencias múltiple.
El objetivo del análisis de correspondencias es establecer relaciones entre variables no métricas enriqueciendo la información que ofrecen las tablas de contingencia, que sólo comprueban si existe relación entre las variables (test Ji-Cuadrada) y la intensidad de dicha relación (test V de Cramer). El análisis de correspondencia revela además en que grado contribuyen con esa relación detectando los distintos valores de las variables, información que se presenta de forma gráfica.
Es importante señalar que al análisis de correspondencia no deja de ser una técnica de análisis factorial cuyos resultados pueden interpretarse en un mapa bidimensional o pluridimensional. A pesar de ello, no se centra exclusivamente en la reducción de dimensiones, sino que trata de "descubrir" afinidades o relaciones entre las variables.
Podríamos sintetizar diciendo que el análisis de correspondencia busca el estudio de la asociación entre las categorías de múltiples variables no métricas generalmente mediante un mapa perceptual que permita observar la asociación de forma gráfica reduciendo el número de variables.
Los objetivos del análisis de correspondencia se pueden resumir en los siguientes cuatro puntos:
1. Permite estudiar las relaciones mutuas entre las modalidades y categorías de dos o más variables cualitativas o cuantitativas categorizadas.
2. Reducir las dimensiones del caso de estudio, de forma que permita un estudio más simple.
3. Visualizar sobre proyecciones de planos, llamados factoriales, las proximidades entre perfiles filas, perfiles columnas y entre perfiles de filas y columnas.
4. Permite extraer nuevas variables o factores que resumen de forma organizada la información significativa y permite crear gráficos que muestren la identificación de los objetasen filas y/o columnas.
A. Análisis de Componentes Principales Simple
El punto de partida es una matriz de datos no negativos de r filas y c columnas, y se trata de buscar la estructura de relación, semejanza o desemejanza, proximidad o lejanía entre los sujetos y los atributos. A partir de esta tabla podemos construir una tabla de frecuencias relativas conjuntas:
(31)
La cual representa la probabilidad de cada elemento nij en el total de la población N.
(32)
Frecuencia marginal relativa de la categoría Ai.
(33)
Frecuencia marginal relativa de la categoría Bj
Formación de las nubes de "puntos" también llamado posicionamiento de las modalidades en el plano factorial. Dos modalidades de una misma variable están obligatoriamente bastante alejadas una de otra en el espacio. Las modalidades raras están alejadas de todas las demás. Esta distancia muestra bien el primero de los dos puntos de vista sobre la semejanza entre las modalidades.
a) En Rc tomaremos la nube de r puntos i cuyas coordenadas son f ij | fi. para j = 1, ,c
b) En Rr tomaremos la nube de c puntos j cuyas coordenadas son f ij | f.j para j = 1, ,r
Las transformaciones realizadas son idénticas para los dos espacios Rc y Rr. Sin embargo ello lleva a transformaciones analíticas diferentes; los nuevos datos en Rr no son la transpuesta de la matriz Rc. Esto nos lleva a realizar dos análisis factoriales diferentes, uno en cada espacio. Pero encontraremos una relación entre los factores que permita reducir los cálculos a una sola factorización facilitando su interpretación.
Observación: Un elemento (fila o columna) influye en la construcción de los ejes por medio de su inercia con respecto al centro de gravedad.
Las tablas de perfiles de filas o columnas reflejan las proporciones que el número de individuos que cada celda representa sobre el total de la fila y sobre el total de las columnas respectivamente. El grado de similitud o disimilitud entre estos perfiles, tanto por filas como por columnas, quedará reflejado en los gráficos en término de proximidades o lejanías entre las categorías de las variables.
El concepto de Masa, en los modelos de Análisis de Correspondencia, se refiere a una ponderación asignada con la finalidad de que a la hora de extraer un eje tratando de que la deformación de la nube de puntos sea mínima, las categorías que se presentan con mayor frecuencia, al tener mayor peso, influyen más en la dirección de los ejes.
Aunque el Análisis de Correspondencias trabaja con perfiles, no olvida las diferencias entre los efectivos de cada fila o columna, sino que les asigna un peso proporcional a su importancia en la total:
En Rc cada punto i esta afectado de un peso fi.
En Rr cada punto j esta afectado de un peso f.j
De esta forma se evita que al trabajar con perfiles se privilegie a las clases de efectivos pequeños.
Ante la desventaja de la prueba Ji-Cuadrada se define la distancia Ji-Cuadrada entre dos filas (entre dos columnas) como una distancia Euclidiana al cuadrado, entre sus perfiles, ponderando con la inversa de las frecuencias marginales (Masa) de las columnas. Esta ponderación evita que las columnas más frecuentes tengan más peso en las distancias. Es decir, la distancia así utilizada entre los perfiles-fila(i,|) es la distancia Ji-Cuadrada definida por:
(34)
Análogamente la distancia entre dos perfiles-columnas (j,k) será:
(35)
Estas distancias tienen la propiedad de equivalencia (Benzécri 1963). Este principio establece que si dos filas son idénticas (equivalencia distribucional), entonces esas dos filas de la tabla de contingencia pueden juntarse en una sola fila, sin afectar la geometría de los perfiles columna; al mismo ocurre con las columnas.
Al realizar las transformaciones de las matrices se obtienen los eigenvalores que pueden ser interpretados como la correlación entre las puntuaciones de las filas y columnas y son análogos a los coeficientes de correlación de Pearson. Para cada dimensión el cuadrado del valor singular es la Inercia.
La Inercia es otro indicador importante en el modelo de Análisis de Correspondencia. Mide la dispersión de la nube de puntos. La inercia es el promedio de las distancias de los distintos puntos a su centro de gravedad, estando cada distancia ponderada por la masa de los puntos correspondientes.
La inercia total será la misma tanto si la nube de puntos corresponde a la representación de las filas coma si corresponde a la de las columnas:
(36).
Donde:
IT: Inercia Total
?2: Chi-Cuadrada
N: Suma de todas las celdas en la tabla de correspondencia
Como lo mencionamos anteriormente, el objetivo del Análisis de Correspondencia es obtener una representación simplificada de puntos fila y columna, los cuales están afectados por una masa o peso y la distancia entre ellos se mide a través de la distancia ?2, la cual busca los factores principales mediante las coordenadas ya mencionadas.
La representación simultánea de los perfiles filas y columnas se visualiza dentro de las tres siguientes formas: la primera, las proximidades entre perfiles filas; la segunda, las proximidades entre perfiles columnas; y finalmente, las proximidades entre perfiles fila y perfiles columnas.
Ejemplo Práctico – Componentes Principales Simple.
Para realizar un modelo de Correspondencias Simple en el programa SPSS se siguen los siguientes pasos: una vez cargados los datos en el programa, en la barra de menú, de la parte superior de la pantalla, seleccionamos "Analyze"; posteriormente seleccionamos "Data Reduction"; y finalmente seleccionamos "Correspondence Analysis ".
Imagen SPSS 2.6.1 Selección de un Modelo de Correspondencias Simple
Aparecerá un cuadro de dialogo como el siguiente:
Imagen SPSS 2.6.2 Cuadro de Dialogo de un Modelo de Correspondencia Simple
En la lista del lado izquierdo tenemos todas las variables de la base de datos. Por medio del cursor seleccionamos las dos variables categóricas (Tabla de contingencia) que necesitamos incluir en nuestro modelo del Análisis de Correspondencia Simple. Al seleccionar las variables mediante la aplicación de "Define Range" se define los valores que toma la variable, como se muestra a continuación.
Imagen SPSS 2.6.3 Cuadro de "Define Range" de un Modelo de Correspondencia Simple
Esta aplicación en útil en algunas ocasiones donde se requiera quitar una categoría de la variable por no tener una suficiente representatividad respecto al resto de las categorías de la variable.
En la pantalla inicial (Imagen SPSS 2.5.2), en la parte inferior, se puede determinar ciertos parámetros del modelo de Correspondencia Simple. Al presionar, en la parte inferior "Plot" aparecerá otro cuadro de dialogo como el siguiente:
Imagen SPSS 2.6.4 Cuadro de "Plot" de un Modelo de Correspondencia Simple
En este cuadro de dialogo podemos requerir las graficas de dispersión para las dos dimensiones generadas para las columnas o renglones; así como la unión de ambas gráficas (Biplot). Además para cuestiones estéticas se puede especificar el número de caracteres por etiqueta en "ID label width for scatterplots".
De la misma forma en la pantalla inicial (Imagen SPSS 2.5.2) se puede pedir algunas estadísticas del modelo de Análisis de Correspondencia Múltiple. Al presionar, en la parte inferior "Statistics" aparecerá otro cuadro de dialogo como el siguiente:
Imagen SPSS 2.6.5 Cuadro de "Statistics" de un Modelo de Correspondencia Simple
En este cuadro de dialogo podemos requerir la tabla de correspondencia (tabla de contingencia de las variables con totales marginales de fila y columna); el resumen de os puntos para las filas y columnas (para cada categoría se obtiene las puntuaciones, la masa, la inercia, la contribución de la inercia a la dimensión y la contribución de la dimensión a la inercia del punto); los perfiles de filas y columnas (para cada categoría muestra la distribución en la fila o columna según sea el caso):
La técnica de Componentes Principales Simple se utiliza para variables categóricas. Por lo anterior y para ejemplificar el tema, se decodifica las base de de datos con las cuales hemos trabajado. Para cada una de las variables vamos a generar cuatro distintos rangos; los cuales se van a construir a partir de cuantíles.
Los estados con menor valor en la variable tendrán el código uno ("Pésimo"), mientras que los estados con los valores más altos tendrán el código cuatro ("Alto"). El orden de la variable es: Pésimo, Malo, Regular y Alto. Al utilizar esté método nos cercioramos de que todos los rangos tengan aproximadamente el mismo número de individuos.
Tabla 2.6.1 Percentiles de las variables sociodemográficas
A partir de la transformación anterior, convertimos los valores de las variables continuas en variables categóricas ordinales, podemos realizar un modelo de Componentes Principales Simple utilizando las variables categorizadas de Población Económicamente Activa y Población con más de 5 SM.
El primer resultado que se obtiene el Análisis de Correspondencia Simple es la tbla de contingencia de las dos variables donde podemos los totales marginales por filas y columnas.
Tabla 2.6.2 Tabla de Contingencia
La siguiente tabla que es un resumen donde se observan lo valores propios (eigenvalores) y la inercia de cada una de las dimensiones, el valor de Ji Cuadrada y la significancia considerando los grados de libertad; finalmente la proporción de la inercia explicada y acumulada por cada dimensión.
Tabla 2.6.3 Tabla Resumen del Modelo
A continuación el programa presenta el resumen de puntos fila y columnas; en los cuales se puede observarlas contribuciones a la inercia total de cada punto fila y columna. Los puntos fila y columna que contribuyen sustancialmente a la inercia de una dimensión son importante para es dimensión.
Tabla 2.6.4 Tabla de Resumen de Puntos Fila
Tabla 2.6.5 Tabla de Resumen de Puntos Fila
Finalmente se muestra le grafica de Biplot donde se puede apreciar las relaciones entre las categorías de ambas variables.
Gráfica 2.6.1 Biplot – Ejemplo Análisis de Correspondencia
En este caso podemos observar como ambas variables están relacionadas entre si. Es decir los estados que tienen "Alta" población económicamente activa también son los estados donde se encuentra una mayor proporción de personas con más de 5 salarios mínimos. Y sucesivamente se puede observar lo mismo para el caso de "Regulares" "Malo" y "Pésimo"; siendo las dos últimas una relación menos exacta.
b. Análisis de Componentes Principales Múltiple
A diferencia del Análisis de Correspondencias Simple, el Análisis de Correspondencias Múltiple añade la posibilidad de trabajar con tres o más variables buscar los patrones y estructuras de relaciones entre las mismas de un modo gráfico en un plano bidimensional o tridimensional.
En el análisis de correspondencia múltiple los datos se ordenan en una tabla Z, denominada tabla disyuntiva completa, que consta de una serie de conjunto de individuos I = 1, , i, , n (en filas); un conjunto de variables o características cualitativas J1, , Jk, JQ (en columnas) y un conjunto de modalidades excluyentes de 1, , mk para cada carácter cualitativo. El número total de modalidades será:
(39)
La tabla disyuntiva completa tiene el siguiente aspecto:
(40)
El elemento Zij de la tabla toma valores de 0 ó 1 según el individuo i haya elegido /esté afectado) por la modalidad j o no. Por lo tanto, cada rectángulo de la tabla disyuntiva completa puede considerarse, aunque no lo sea, una tabla de contingencia cuyos elementos son 1 ó 0. La tabla disyuntiva completa consta entonces de Q subtablas, con la finalidad de obtener una representación simultánea de todas las modalidades (columnas) de todos los individuos (filas).
Es decir una tabla disyuntiva completa tendría el siguiente aspecto:
(41)
Para obtener los factores es necesario diagonalizar la matriz V = D-1B/Q donde B= Z"Z es una tabla de Burtz, una matriz simétrica formada por Q2 bloques, de modo que sus bloques de la diagonal Z"kZk son tablas diagonales que cruzan una variable con ella misma, siendo los elementos de la diagonal los efectivos de cada modalidad k.j. Los bloques formados fuera de la diagonal son tablas de contingencia obtenidas cruzando las características de dos en dos Z"kZk cuyos elementos son la frecuencia de asociación de las dos modalidades correspondientes. La matriz D es una matriz diagonal cuyos elementos diagonales son los de la matriz de Burtz, siendo nulo el resto de los elementos. El aspecto de la tabla de Burtz es el siguiente:
(42)
Las formulas de transición que permiten representar simultáneamente los puntos líneas y los puntos columna sobre los mismos gráficos relacionados así los resultados en los dos subespacios son:
(43)
(44)
El centro de gravedad de la nube de puntos variables N(j) en el Análisis Factorial de Correspondencias es vfi. que en este caso puede equipararse a una distribución uniforme 1/vn, ya que:
(45)
El centro de gravedad de las modalidades de cada variable, cada una ponderada por su propio peso, es el mismo que el de las modalidades N(J), es decir, 1/vn ya que el centro de gravedad del subcentro IxJk se obtiene a partir de una distribución marginal. Como sólo recoge una variable la suma de cada línea es 1 y el total de la tabla es n, en donde fi.=1/n.
La parte de inercia debido a una modalidad j es mayor cuanto menor sea el efectivo de esa modalidad. Si G es el centro de gravedad, la inercia debido a la modalidad j está dada por:
(46)
Por lo tanto, es aconsejable eliminar las modalidades elegidas muy pocas veces, construyendo otra modalidad uniéndola a la más próxima.
La pare de inercia debida a una variable es función creciente del número de modalidades de respuesta que tiene, ya que la inercia de una variable es la suma de las inercias de sus modalidades:
(47)
Si una variable tiene un número de modalidades demasiado grande, al igual que en el caso de que se efectivo sea muy pequeño, conviene reagrupar las modalidades en un número razonable, para evitar influencias externas.
La inercia total es la suma de las inercias de todas las modalidades:
(48)
J/Q es el número medio de modalidades por variable cualitativa o característica. En consecuencia, la inercia total sólo depende del número de modalidades y preguntas.
El procedimiento del Análisis de Correspondencias Múltiple utiliza en la estimación de parámetros el procedimiento conocido como "Alternanting Least Squares" o alternancia de mínimos cuadrados.
La estimación de mínimos cuadrados de los valores de los parámetros se realiza en dos fases: primero, obtener que la cuantificación de los individuos sean optimas, en el sentido de que las categorías estén separadas una de otras en las dimensión o dimensiones tanto como sea posible; y en segundo lugar, que dentro de cada categoría los sujetos homogéneos estén lo más próximos unos a otros.
El modelo de Análisis de Correspondencias Múltiple genera las "Object Scores" mediante la alternancia de los mínimos cuadrados. El sistema genera para cada individuote la muestra un número de puntuación (equivalentes a las puntuaciones factoriales) igual al número de dimensiones de la solución. Estas puntuaciones son normalizadas (media cero y varianza de uno).
Por otro lado, también se generan las "Optimal Scores" que son las puntuaciones individuales en cada dimensión, promediadas para los individuos de cada categoría en las respectivas variables; que son los centroides de cada categoría en cada dimensión. Como se mencionó anteriormente el Análisis de Correspondencias Múltiple trata de maximizar la distancia entre estos centroides.
Ejemplo Práctico – Componentes Principales Múltiples.
Para realizar un modelo de Correspondencias Múltiple en el programa SPSS se siguen los siguientes pasos: una vez cargados los datos en el programa, en la barra de menú, de la parte superior de la pantalla, seleccionamos "Analyze"; posteriormente seleccionamos "Data Reduction"; y finalmente seleccionamos "Optimal Scaling ".
Imagen SPSS 2.7.1 Selección de un Modelo de Correspondencias Múltiple
Aparecerá un cuadro de dialogo como el siguiente:
Imagen SPSS 2.7.2 Cuadro de Dialogo de un Modelo de Correspondencia Múltiple
En este cuadro para realizar un Análisis de Correspondencia Múltiple es necesario seleccionar: "All variables multiple nominal" y "One set". En la parte inferior aparecerá la leyenda: "Multiple Correspondence Analysis". Aparecerá la siguiente pantalla:
Imagen SPSS 2.7.3 Cuadro de Dialogo de un Modelo de Correspondencia Múltiple
En la lista del lado izquierdo tenemos todas las variables de la base de datos. Por medio del cursor seleccionamos las variables categóricas que necesitamos incluir en nuestro modelo del Análisis de Correspondencia Múltiple y las ubicamos en el cuadro "Análisis Variable". En la pantalla inicial (Imagen SPSS 2.6.3), en el lado derecho, se puede determinar ciertos parámetros del modelo de Correspondencia Múltiple. Al presionar "Save" aparecerá otro cuadro de dialogo como el siguiente:
Imagen SPSS 2.7.4 Cuadro de Dialogo de un Modelo de Correspondencia Múltiple
En este cuadro de dialogo podemos guardar varias variables generadas a partir del modelo de Análisis de Componentes Múltiples. Al seleccionar "Save object scores to the active dataset" el programa guarda los valores de cada dimensión para cada uno de los individuos de la base de datos. En la parte inferior se puede especificar el número de dimensiones que se requieren,
La técnica de Componentes Principales Múltiples se utiliza para variables categóricas. Por lo anterior, para realizar el ejemplo de Análisis de Correspondencia Múltiple consideremos la transformación de las variables continuas a variables categóricas que realizamos en el capítulo anterior. Para la construcción del modelo consideremos las cinco variables de la base de datos: la proporción de unidades económicas respecto al país, la proporción de población económicamente activa (PEA) respecto al total de población, la proporción de personas con ingresos mayores a cinco salarios mínimos y el número de habitantes por universidad del estado. El objetivo del modelo consistiría en reducir a dos dimensiones dicha información.
Tabla 2.7.1 Percentiles de las variables sociodemográficas
La primera tabla que se muestra en el Análisis de Correspondencia Múltiple es el resumen del modelo. En este caso se observa que ambas componentes tienen una baja explicación de la variabilidad. La primera dimensión explica el 54% y la segunda tan sólo el 44%. Lo que nos indica que las variables no están del todo relacionadas. Además el Alfa de Cronbach es bastante cercano a uno lo que nos asegura la fiabilidad de la escala. La siguiente tabla muestra la relación entre cada una de las variables con cada una de las dimensiones. Se observa que la dimensión uno está relacionada principalmente con la variable de unidades económicas y número de universidades; mientras que la segunda dimensión se relaciona con el total de la población.
Tabla 2.7.2 Relación entre variables y dimensiones
El siguiente gráfico es otra forma de mostrar las relaciones de las distintas variables respecto a cada una de las dimensiones.
Gráfica 2.7.1 Aleatoriedad de los residuales
Finalmente, se muestra una gráfica de las dos componentes.
Gráfica 2.7.2 Gráfica de dimensiones del Análisis de Correspondencia Múltiple
Finalmente, la gráfica muestra las dos dimensiones donde la primera dimensión es un índice de actividad económica y la segunda dimensión es un índice de "Estados Menos poblados"; ya que la variable de Población Total tiene una correlación negativa (-0.24) con la segunda dimensión.
ANÁLISIS DE CONGLOMERADOS.
El término análisis de conglomerados o análisis de Cluster se utiliza para definir una serie de técnicas, fundamentalmente algoritmos, que tienen por objeto la búsqueda de grupos similares de individuos o de variables que se van agrupando.
El objetivo principal del análisis de conglomerados es clasificar los objetos en partes relativamente homogéneas con base a un conjunto de variables determinadas. Los objetivos de un grupo deben de ser similares en términos de las variables y deferentes a los objetos de los otros grupos. Es importante mencionar que este análisis está basado en algoritmos sencillos y no es propiamente un método estadístico.
El análisis de conglomerados es diferente al análisis de factores y al análisis discriminante. En el análisis de factores reducimos el número de variables, mientras que en el análisis de conglomerados se agrupan los objetos (individuos). En el caso del análisis discriminante, aunque también agrupa objetos, se requiere el conocimiento previo de una agrupación establecida a fin de desarrollar una regla de clasificación. Mientras que en el caso de análisis de conglomerados no es necesario un conocimiento previo porque los datos son los que siguieren los grupos de manera natural.
Para realizar el análisis de conglomerados en necesario determinar una medida para agrupar los objetos que resulten similares. La práctica más común es medir la equivalencia en términos de distancia entre los pares de objetos; así los objetos con una menor distancia resultan ser más parecidos mientras que los objetos con mayor distancia son diferentes. Entre las diferentes medidas de similitud están:
Distancia Euclidiana: Se basa en el teorema de Pitágoras y es similar a encontrar la hipotenusa en un ángulo recto .La formula generalizada para k dimensiones es:
(49)
Distancia de Manhatan: Esta medida se obtiene mediante la suma de las diferencias absolutas en el valor de cada variable.
Distancia de Cauchy: Se define como la diferencia absoluta máxima en los valores para cada una de las variables.
Distancia de Mahalanobis: Esta distancia tiene la ventaja de dividir la distancia Euclidiana sobre la matiz de varianzas y covarianzas, eliminando las unidades. Esta distancia se define como:
(50)
donde:
Mc: Es la medida de la clase C
Sc-1: Es la matriz de varianzas y covarianzas
El uso de distintas medidas nos puede llevar a resultados diferentes del conglomerado. Por consiguiente, es recomendable utilizar varias medidas y comparar los resultados para obtener el más convincente para los objetivos del análisis de conglomerados.
Diferentes clases de Conglomerados.
El análisis de conglomerados puede ser de dos formas: jerárquico o no jerárquico. El conglomerado jerárquico como su nombre lo indica, desarrolla una jerarquía o estructura en forma de árbol (dendograma) y a su vez se divide en dos tipo:
1. Jerárquico por división: En este tipo de análisis se inicia con un solo grupo. Los conglomerados se van obteniendo a partir de divisiones hasta lograr que cada uno de los individuos forme un grupo.
2. Jerárquico por aglomeración: en este tipo de análisis cada uno de los objetos empieza en un grupo diferente, los conglomerados se van obteniendo al agrupar los objetos en grupos cada vez más grandes. El proceso es reiterativo hasta llegar a formar un solo grupo.
Página anterior | Volver al principio del trabajo | Página siguiente |