Importancia del clima laboral en las empresas de servicio (página 2)
Enviado por Ing.Licdo. Yunior Andrés Castillo Silverio
El concepto de endomarketing se define como: tratar a sus trabajadores como un grupo de clientes. Esto tiene como objetivo que los empleados proporcionen un mejor trato a sus clientes, sobretodo en empresas de servicio. En la parte final del capítulo se relaciona a la Investigación de Marcados como un medio de recolección de información. En específico la metodología de Benchmarking que tiene como propósito el comparar a las mejores empresas (en este caso serían a los mejores empleados) y tratar de imitar sus procesos o entornos.
En otras palabras, la tesis propone el uso de técnicas de investigación de mercados para identificar posibles áreas de mejora de los empleados, todo con el objetivo de proporcionarles un mejor servicio a los clientes.
CAPÍTULO 2:
2. FUNDAMENTOS TEÓRICO
Este capítulo tiene por objeto enlistar y describir las herramientas estadísticas que se utilizarán en el caso práctico. Es importante mencionar que no es objeto de esta tesis el profundizar en aspectos teóricos ni demostrar el funcionamiento de estas herramientas. A continuación se describirán cada una de estas herramientas:
2.1 Prueba Ji -Cuadrada
Finalidad: Esta prueba tiene como objetivo determinar si existe independencia entre dos variables categóricas en una tabla de contingencia. Es decir, si dos variables están relacionadas entre si. La prueba de Ji-Cuadrada es considerada como una prueba no paramétrica que mide la discrepancia entre una distribución observada y otra teórica (bondad de ajuste), indicando en qué medida las diferencias existentes entre ambas, de haberlas, se deben al azar. También se utiliza para probar la independencia de dos muestras entre sí, mediante la presentación de los datos en tabla de contingencia (son tablas de doble entrada, variables cualitativas, que contienen las frecuencias con que ocurren las diferentes combinaciones de los valores de las variables.[15]
A continuación se presentan los pasos o las etapas que se deben consideraran para realizar una prueba Ji-Cuadrada:
1) Planteamiento de las hipótesis (independencia entre ambas variables)
2) Construir una tabla que contenga los valores observados.
3) Sumar los totales de los renglones y columnas de los valores observados.
4) Debajo de cada valor observado poner el valor esperado utilizando la fórmula:
(1)
5) Calcular el valor del estadístico de prueba Ji-Cuadrada usando la fórmula:
(2)
Donde:
Oij = Valor observado de la celda i,j.
Eij = Valor esperado de la celda i,j
6) Determinar los grados de libertad mediante:
(3)
Donde
r = número de renglones
c = número de columnas
7) Calcular el valor crítico en la tabla
8) Criterio de decisión: si el valor crítico < valor del estadístico de prueba rechazamos Ho. Determinar si la prueba es significativa según los parámetros establecidos previamente.
Ejemplo de Prueba Ji-Cuadrada:
Una compañía de cervezas tiene dos tipos de cervezas: clara y negra. Antes de lanzar su nueva propaganda desea saber si existe diferencia en la preferencia del tipo de cerveza entre los hombres y las mujeres. Para determinar esto a un novel de significancia de 0.05 se realizó una encuesta a 150 personas y se obtuvo la siguiente información:
Tabla 2.1.1 Tabla de Contingencia ejemplo práctico
Definición de hipótesis:
Ho: la preferencia por el tipo de cerveza y el género son independientes.
H1: la preferencia por el tipo de cerveza y el género son dependientes.
Grados de Libertad: (2 – 1) (2 – 1) = 2
Se calculan los estadísticos de prueba:
La gráfica muestra la distribución Ji-Cuadrada con 2 grados de libertas, observamos que el valor de 8.371 nos da una p-value de 0.0038; es decir que la probabilidad de que la preferencia del tipo de cerveza se independiente al género es prácticamente nula.
Gráfica 2.1.1 Ji-Cuadrada con 2 g.l.
Por lo tanto, la prueba concluye que la preferencia del tipo de cerveza depende del género.
2.2 Modelo de Regresión Lineal.
El análisis de regresión es una técnica estadística que permite estudiar la relación de asociación entre una variable dependiente y una o más independientes. Los posibles objetos de este modelo son:
1. Detectar una relación directa entre la variable dependiente y las variables independientes.
2. Determinar que parte de la variación de la variable dependiente puede explicarse por medio de las variables independientes.
3. Predecir valores de la variable dependiente.
4. Valuar que variables independientes pueden explicar mejor a la variable dependiente.
El modelo de regresión múltiple con k variables explicativas, para el modelo poblacional, es el siguiente:
Yi = ß0 + ß1 Xi1 + ß2 Xi2 + + ßk Xij + ui (4)
Donde:
Yi: Es la variable de datos independientes para la i-esima observación
?j: Es el coeficiente de la j-esima observación
Xij: Es la j-esima variable independiente para la i-esima observación
Ui: es el i-esimo error
La representación matricial del modelo está dada por:
Y = X ß + u (5)
Donde:
Y: Es el vector (n x 1) formado por las observaciones de la variable independiente.
X: Es una matriz de tamaño (n x (k + 1)), formado por las observaciones de las k variables independientes que contiene en la primera columna unos (la constante de la regresión).
?: El vector de coeficientes poblacionales cuya dimensión es de [(k + 1) x 1]
U: Es un vector de errores aleatorios de dimensión (n x 1)
En general sólo se cuenta con una muestra de datos por lo que los parámetros de regresión (ß) requieren ser estimados y así poder hacer inferencias. Para efectos de estimación generalmente se utiliza mínimo cuadrados ordinarios. Está técnica determina la línea que mejor ajusta a los datos. El criterio de cercanía se basa en los cuadrados de las distancias de todos los puntos a la línea de regresión. Esta línea de regresión es equivalente a E[ Yi | Xij ] = Xß.
El análisis de regresión se basa en varios supuestos que se tienen que cumplir para que el modelo sea valido. Estos supuestos son:
1. El valor promedio del término de perturbación poblacional ui, condicionado en los valores dados de las variables explicativas es igual a cero.
2. La varianza condicional de ui es constante (homocedastica)
3. No existe correlación alguna entre las perturbaciones ui.
4. Las variables explicativas no son variables estocedásticas, es decir son fijas para muestreos repetidos, o si son estocásticas están distribuidas independientemente de las perturbaciones ui.
5. No existe multiconealidad entre las variables explicativas
6. Las ui poseen una distribución normal cuya media es cero y la matriz de varianza y covarianza está dada por los supuestos uno y dos.
7. El modelo de regresión está correctamente especificado, es decir no existe ningún sesgo de especificación.
Ejemplo Práctico – Análisis de Regresión.
Con el fin de explicar de forma concreta los diferentes modelos estadísticos que se van a utilizar durante la tesis se realizarán diversos ejercicios con la misma base de datos. La información que se utilizará se obtuvo a partir de las siguientes fuentes oficiales: Censo de Población y Vivienda 2000, Censo Económico 2004 y La Asociación Nacional de Universidades e Instituciones de Educación Superior (ANUIES). La información está constituida a nivel estatal y por siete variables en dos diferentes rubros: demográfico y económico. Las variables demográficas que contiene la base de datos es: población total del estado. Mientras que las variables económicas que se utilizarán son: la proporción de unidades económicas respecto al país, la proporción de población económicamente activa (PEA) respecto al total de población, la proporción de personas con ingresos mayores a cinco salarios mínimos y el número de habitantes por universidad del estado. Mediante un modelo de regresión múltiple se va a tratar de realizar un modelo que explique o estime el porcentaje do población con más de 5 salarios mínimos, variable dependiente. Es importante mencionar que esta variable puede ser utilizada como parámetro de la riqueza en el estado. El resto de las variables se van a considerar como variables explicativas. Para realizar este trabajo se utilizó el programa estadístico SPSS 15.0. A continuación se presentaran la forma en que se realza un análisis de regresión múltiple en este programa. Una vez que se tienen cargados los datos en el programa, en la barra de menú, de la parte superior de la pantalla, seleccionamos "Analyze"; posteriormente seleccionamos "Regresión"; y finalmente seleccionamos "Lineal".
Imagen SPSS 2.2.1 Selección de un Modelo de Regresión
Aparecerá un cuadro de dialogo como el siguiente:
Imagen SPSS 2.2.2 Cuadro de Dialogo de un Modelo de Regresión
En la lista del lado izquierdo tenemos todas las variables de la base de datos. Por medio del cursor seleccionamos la variable dependiente del modelo de regresión y la indicamos en "Dependent". De la misma forma seleccionamos las variables independientes y las ubicamos en el "Independent(s)". En el cuadro de dialogo de "Methods" se puede elegir entre distintas formas preestablecidas para la selección de modelos; entre las cuales podemos encontrar: Enter, Stepwise, Forward, Backward y Removed. Finalmente, en caso de necesitar un modelo ponderado por una variable de "pesos", la variable se pone en "WLS Weight" En la misma pantalla se puede pedir ciertas estadísticas del modelo de regresión. Al presionar, en la parte inferior "Statistics" aparecerá otro cuadro de dialogo como el siguiente:
Imagen SPSS 2.2.3 Cuadro de Estadísticas de un Modelo de Regresión
En este cuadro de dialogo se pueden seleccionar algunas estadísticas interesantes para el modelo de regresión como pueden ser: las estimaciones e intervalos de confianza para los coeficientes; el ajuste del modelo R2 y R2 Ajustada; las estadísticas descriptivas de las variables independientes (que incluye la tabla de correlaciones); algunas pruebas para residuales como la Durban-Watson entre otras estadísticas.
De la misma forma en la pantalla inicial se puede pedir ciertas gráficas del modelo de regresión. Al presionar, en la parte inferior "Plots" aparecerá otro cuadro de dialogo como el siguiente:
Imagen SPSS 2.2.4 Cuadro de Gráficas de un Modelo de Regresión
Este cuadro de dialogo permite realizar gráficas de dispersión entre dos variables generadas mediante el modelo de regresión. Las principales variables que se pueden graficar son: los valores de la variable dependiente, los residuales (tanto los normales como los estandarizados) y los valores predichos por el modelo. Así mismo se puede pedir el histograma de residuales, la prueba de Normalidad para los residuales y las gráficas parciales habilitando los botones en la parte inferior.
De la misma forma en la pantalla inicial se puede pedir guardar en la base de datos ciertas variables del modelo de regresión. Al presionar, en la parte inferior "Save" aparecerá otro cuadro de dialogo como el siguiente:
Imagen SPSS 2.2.5 Cuadro de "Save" de un Modelo de Regresión
En este cuadro de dialogo se indican todas las variables generadas a partir del modelo de regresión que necesitemos guardar en la base de datos con la que estamos trabajando. Es importante mencionar que en el caso de los intervalos de confianza para la predicción se puede establecer la confiabilidad (95% como valor preestablecido por el programa).
Coeficiente de Determinación.
Uno de los puntos más importantes en el modelo de regresión, en general, es determinar la relación que hay entre el conjunto de variables independientes y la variable dependiente. Una de las medidas para cuantificar esta relación es el coeficiente de determinación (R2); el cual representa la porción de varianza total de Y explicada por el modelo. Este coeficiente varía entre cero y uno y se calcula mediante la siguiente formula:
(6)
Donde:
SCM: Suma de cuadrados del modelo
SCT: Suma de cuadrados totales.
Continuación con el ejemplo – Coeficiente de Determinación.
Al correr el modelo de regresión en SPSS el primer estadístico que aparece es el coeficiente de determinación. Los resultados propios del modelo de regresión múltiple son:
Tabla 2.2.1 Resumen del Modelo
Podemos observar que el ajuste del modelo es bastante aceptable, la R2 es igual a 0.7; lo que implica que las variables independientes modelan de forma adecuada nuestra variable dependiente. Es decir, las variables de población, la proporción de unidades económicas, la proporción de PEA y el número de habitantes por universidad del estado son buenos estimadores para obtener nuestra variable dependiente (proporción de población de más de 5 salarios mínimos).
Estimación de ß´s
La interpretación que se les puede dar a los coeficientes ßi es el efecto de Xi, sobre la variable Y, manteniendo fijo el efecto de las demás variables X sobre Y. La estimación de ß se lleva comúnmente por mínimos cuadrados. En este modelo se minimiza la suma de los errores al cuadrado y los estimadores de ß son:
? = ( X" X )-1 X" Y (7)
A la Matriz ( X" X )-1 se le conoce con el nombre de la "hat matriz" por ser la matriz que estima a las ß"s. Esta matriz es importante porque es la que da los pesos a las observaciones de la matriz X.
Varianza de (ß)
Una vez estimado el valor de las ßi es importante calcular la varianza de estos estimadores. Lo anterior, nos sirve para realizar pruebas de significancia para las diferentes ß´s. Esta varianza es calculada como:
Var [ ßi ] = [ s2 ( Xt X )-1 ]ii (8)
Como no se conoce s2 se estima mediante:
(9)
Prueba de hipótesis para los coeficientes individuales de la regresión múltiple.
Si se requiere hacer inferencia utilizando el modelo de reversión maestral es práctico asumir que los errores tienen una distribución normal con media cero y varianza constante (s2). En este caso, este método de mínimos cuadrados ordinarios proporciona una ß estimada insesgada y con una distribución normal.
Asumiendo normalidad de las ui tenemos que los estimadores de ß tienen una distribución normal, con una media igual al valor verdadero de ß y una varianza dada por s2 multiplicado por el elemento adecuado en la diagonal de la matriz inversa (X"X)-1. Puesto que en la realidad se desconoce s2, esta se estima. Entonces, en lugar de utilizar una distribución normal para hacer inferencias sobre ß, se utiliza una distribución t con (N-(k+1)) grados de libertad (donde k es el número de parámetros a estimar). De tal forma que:
(10)
Por tanto, la distribución t se puede utilizar para llevar acabo una prueba de hipótesis acerca del valor verdadero de ßi, también se pueden establecer intervalos de confianza para estos parámetros.
Continuación con el ejemplo – Estimación de ß´s
A continuación se muestran los valores de las ß"s y sus correspondientes intervalos de confianza para el modelo de regresión múltiple del ejemplo:
Tabla 2.2.2 Análisis de Coeficientes.
Al observar los coeficientes obtenidos en el modelo de regresión múltiple observamos que la variable "Número de Universidades" no es significativa; es decir que la variable no aporta información para estimar el porcentaje de población mayor a 5 salarios mínimos. Además se puede observar como el intervalo de confianza para esta variable es prácticamente cero.
Por otro lado, en esta tabla podemos concluir que la variable que más aporta a explicar a la variable dependiente de forma directa s la población total. Es decir entre más grande sea la población en el estado, la proporción de población mayor de 5 salarios mínimos es más grande. Por otro lado, es importante mencionar como la proporción de unidades económicas influye inversamente en el modelo. Es decir, no por tener un mayor número de empresas en el estado va afectar la proporción de personas con más de 5 salarios mínimos.
Pruebas de significancia global en la regresión (Análisis de Varianza)
La metodología de análisis de varianza puede ser utilizada dentro del modelo de regresión. Este método consiste en hacer una partición d la suma de cuadrados totales (SCT) en la suma de cuadrados explicada del modelo (SCM) y la de los residuales (SCE). El propósito es probar la significancia de la suma de cuadrados explicada; es decir, la hipótesis nula es que todas las ß´s son igual a cero.
Según los supuestos de modelo de regresión SCE/s2 tiene una distribución ?2 (Ji-cuadrada) con (N-k-1) grados de libertad. Por otra parte, SCM/s2 tiene una distribución ?2 (Chi-cuadrada) con k grados de libertad. Además estas dos distribuciones son independientes. Así que para el supuesto que todas las ß"s sean igual con cero podemos usar una estadística F, al dividir las dos expresiones anteriores, para probar la hipótesis nula que el vector ßi=0, con i=1, 2, 3, n.
Continuación con el ejemplo – Prueba ANOVA
A continuación se muestra la tabla ANOVA para el ejercicio práctico:
Tabla 2.2.3 Resultado tabla ANOVA.
La hipótesis a comprobar para la tabla ANOVA es que todas las ß"s son iguales a cero. Como la prueba salió significativa, el valor de "Sig" es igual a cero esto nos indica que nuestra hipótesis no se cumple; por lo tanto, tiene sentido el modelo de regresión.
En otras palabras, esta prueba nos dice que las variables independientes (la proporción de unidades económicas, la proporción de PEA y el número de habitantes por universidad del estado) explican en "algo" a la variable dependiente. Es importante mencionar que este estadístico debe ser el primer criterio para validar un modelo de regresión.
Violación a los Supuestos.
Violaciones grandes a los supuestos de regresión pueden tener como consecuencias tener un modelo inadecuado, es decir que no tenga sentido en la realidad. Mediante estadísticas como t, F o el coeficiente de correlación (R2) en ocasiones es posible detectar estas violaciones a los supuestos; ya que estas estadísticas determinan propiedades generales del modelo.
Análisis de Residuales.
Los residuales pueden verse como la diferencia entre el dato y el ajuste del modelo. Además la suma de cuadrados de estos es la variabilidad no explicada por el modelo. Los residuales no son independientes, pero los errores si lo son.
Los residuales se utilizan en varias estadísticas asociadas con el modelo de regresión para analizar la validez de los supuestos. Distintas gráficas utilizando los residuales proporcionan herramientas útiles sobre la veracidad de los supuestos en el modelo de regresión.
Normalidad.
Para poder probar el supuesto de normalidad de los errores, es común revisar el histograma de los residuales. Pueden obtenerse evidencias adicionales al determinar el porcentaje de los residuales que caen entre ± 1 desviación estándar ó ± 2desviaciones estándar. Estos porcentajes pueden compararse con los que han de esperarse en una distribución normal (68% y 95% respectivamente).
Otra forma de detectar la normalidad de los errores es mediante una gráfica de probabilidad. Suponemos que tenemos una muestra de n elementos y deseamos saber si provienen de una muestra normal de media &µ y varianza s2. El procedimiento es el siguiente:
1. Ordenamos la muestra de menor a mayor.
2. Tomamos los n-cuantíles de la distribución normal estandarizada.
3. Graficamos ambas muestras. Es decir, los residuales que están en el primer lugar corresponden el primer cuantil. Graficando todos los puntos de esta forma.
4. Si la gráfica representa una recta de pendiente uno implica que la muestra que tenemos proviene de una distribución normal. Mientras que si la gráfica resulta ser una función cúbica resulta que la distribución de los datos está sesgada.
Heterodasticidad
Otro de los supuestos que se requiere verificar en un modelo de regresión es la homocedasticidad. Este supuesto dice que la varianza condicional de los errores debe ser la misma. Si no se cumple lo anterior se dice que hay un fenómeno de heterodasticidad. El problema al no cumplirse este supuesto es que los estimadores no tienen varianza mínima; por lo tanto, no son eficientes. Es decir, existen mejores estimadores ß que los encontrados por mínimos cuadrados ordinarios.
Aunque es fácil detectar la presencia teórica de heterodasticidad no es tan fácil en la práctica; esto se debe a que por lo general se cuenta con una sola observación de Y para cada nivel de X´s, imposibilitando averiguar si Var [ ui | xi ] = s2i. Como consecuencia se han desarrollado algunos métodos para determinar la presencia de heterodasticidad. Estos métodos generalmente evalúan los residuos obtenidos del procedimiento de mínimos cuadrados normales buscando patrones sistemáticos. Una vez identificados estos patrones se busca una transformación de la variable de tal manera que en la ecuación transformada los errores sean homocedasticos.
Una de las formas más simples para detectar homocedasticidad en un modelo de regresión es graficando los residuales vs. los valores reales. En la práctica cuando no existe información a priori sobre la homocedasticidad se pude llevar acabo el análisis suponiendo que se cumple. Una vez determinado el modelo se analizan los residuales estimados al cuadrado para ver si presentan un patrón sistemático.
Las siguientes gráficas muestran algunos patrones que pueden seguir los residuales:
a. Los residuales pueden mostrar patrones lineales:
Gráfica 2.2.1 Tendencia de los residuales
b. Los residuales pueden mostrar patrones
Gráfica 2.2.2 Tendencia de los residuales
c. Los residuales pueden seguir patrones cíclicos:
Gráfica 2.2.3 Tendencia de los residuales
Continuación con el ejemplo – Análisis de Residuales.
A continuación se presentan las tablas de Normalidad y aleatoriedad de los residuales para el modelo de regresión múltiple:
Gráfica 2.2.4 Prueba de Normalidad P-P
Al realizar la prueba de Normalidad P-P para los residuales observamos que los valores se distribuyen cerca de la línea de 45 grados. Lo anterior valida el supuesto de normalidad de los residuales.
Gráfica 2.2.5 Aleatoriedad de los residuales
Finalmente, tenemos una grafica que muestra los residuales estandarizados vs. valores de la variable dependiente. Esta gráfica se utiliza para encontrar patrones de comportamiento en los residuales. Como podemos observar no se encuentra ningún patrón en los residuales.
Multicolinealidad.
Originalmente este termino implicaba la existencia de una relación lineal "perfecta o exacta" entre alguna o todas las variables del modelo de regresión. Es decir que existía una combinación lineal igual a cero donde no todos los coeficientes sean cero a la vez. Sin embargo en la actualidad el término se aplica en un sentido más amplio. Multicolinealidad incluye los casos donde las variables X están inter-correlacionadas, en forma casi perfecta. Un ejemplo de multicolinealidad perfecta es:
Es decir, cuando la combinación lineal de un subconjunto de las variables independientes y otra variable independiente excluida tiene un coeficiente de correlación cercano a uno se dice que hay multicolinealidad casi perfecta.
El problema de multicolinealidad en un modelo de regresión simple es que los coeficientes de regresión son indeterminados y sus errores estándar son infinitos. Si la multicolinealidad no es perfecta es que los errores estándar son muy grandes; lo cual implica que de llevarse acabo inferencias sobre ß los intervalos de confianza para estos parámetros van a ser artificialmente grandes.
En otras palabras esto se traduce en que cuando hay multicolinealidad se encuentran razones t no significativas a pesar de que las variables importantes para explicar. Como los errores estándar son altos disminuye de manera considerable el valor t; lo cual nos lleva con facilidad a aceptar la hipótesis nula. Una forma sencilla de detectar multicolinealidad es tener varias ß´s (o todas) iguales a cero y una alta R2.
Continuación con el ejemplo – Multicolinealidad
Para verificar si nuestro modelo regresión múltiple tiene multicolinealidad vamos a observar nuevamente los valores de las ß´s:
Tabla 2.2.4 Análisis de Coeficientes.
Se observa que sólo una variable es cero; por lo tanto, desechamos la existencia de multicolinealidad en el modelo.
Autocorrelación de los errores de orden uno.
Uno de los problemas en los modelos de regresión lineal es la correlación de los errores. La correlación puede ser de varios órdenes. Es decir, puede existir una correlación de cada residual con el siguiente o cada determinado número de residuales. Si los residuales se correlacionan cada n observaciones se dice que existe una auto correlación de orden n.
Para detectar la autocorrelación de orden uno se utiliza la prueba Durban-Watson. Es posible pensar en probar hipótesis en torno a p, donde p es la correlación entre ui y ui+1. Una estadística que se usa para proba esta hipótesis es la Durban-Watson que se denota con la letra d.
Si p = + 1, entonces d = 0 y si p =-1 entonces d = 4. Tenemos que d = 2 si p = 0. Es decir si d = 0 ó d = 4 los residuos tienen una alta correlación. La distribución de muestreo de d depende del tamaño de la muestra n y del número de parámetros a estimar (k+1), y por tanto, para el estadístico Durban-Watson se calculan los límites superiores (du) e inferiores (di) para diferentes niveles de significancia d. Existen tablas para probar la correlación cero contra la hipótesis autocorrelación positiva de primer orden (para la autocorrelación gavia se intercambia du y di).
Criterio para la prueba de hipótesis:
Si d < di se rechaza la hipótesis nula de autocorrelación
Si d>du no se rechaza la hipótesis nula
Si du < d< di la prueba no es concluyente
Continuación con el ejemplo – Prueba Durban – Watson
A continuación se muestra el valor de la prueba Durban-Watson para el modelo de regresión múltiple:
Tabla 2.2.5 Análisis de Coeficientes.
La prueba Durban-Watson da como resultado un valor de 1.97; el cual es muy cercano a 2. Por lo tanto, su concluye que en el modelo de regresión múltiple no existe autocorrelación de orden uno.
Observaciones que alteran el modelo de regresión.
Dentro del análisis de regresión existen dos tipos de datos que es importante determinar para un modelo porque pueden alterar los resultados por tener un comportamiento diferente al resto. Estos son: los datos influyentes y los datos atípicos.
a) Datos Influyentes
Un dato influyente es aquel que al ser excluido en los datos de la regresión cambia considerablemente la pendiente de la recta. Es decir, el efecto de este tipo de datos sobre el modelo es que la pendiente de la recta de regresión es muy considerable a estos.
Al encontrar este tipo de datos lo más conveniente es revisar la fuente de información; ya que se puede tratar de un error en la captura. Si al comprobar el dato sabemos que es correcta la medición tenemos como alternativa presentar el modelo sin con el dato influyente. No es conveniente quitar este tipo de datos porque también puede ser parte del fenómeno que estamos analizando y por cuestiones de muestreo no se recopilaron suficientes datos con el mismo comportamiento.
Se han desarrollado métodos por los cuales se pueden detectar fácilmente los datos influyentes. Entre los métodos más comunes se encuentra la distancia de Cook.
La distancia de Cook es un método para medir el cambio de ß cuando una observación es omitida en el modelo de regresión. Mide el impacto de la observación en todos los coeficientes de regresión. Se define como:
(16)
El método de Cook mide la distancia entre ß(i) y ß en términos del intervalo para el elipsoide en ß. Entonces Di es igual a la prueba F (a, p", n-p"), el ß(i) es el vector de 100(1-a)% del intervalo de confianza para el elipsoide para ß calculado a partir de ß. No se debe interpretar como una prueba de significancia. Cuando Di esta cerca de los valores de 1.0 y 0.8 significa que el cambio es cercano al percentil 50 en la mayoría de los casos.
La distancia de Cook"s también puede interpretarse como:
(17)
La distancia de Cook"s también puede ser interpretada como la distancia Euclidiana entre Y(i) y Y, entonces si el cambio es considerable la i-esima observación es altamente influyente.
Continuación con el ejemplo – Distancias de Cook.
A continuación se presentan las distancias de Cook para cada una de las observaciones del modelo de regresión múltiple:
2.2.6 Tabla de Distancias de Cook"s
La tabla muestra como el valor para el Estado de México es mayor a 1.0 lo que nos indica que este dato es altamente influyente. La teoría indica que es necesario revisar la fuente; si embargo sabemos, por la estructura del país, que el Estado de México concentra el mayor número de población y por ende también el número de empresas. Por lo tanto, se corre nuevamente el modelo de regresión múltiple sin el dato antes mencionado. El resto de los estados no presentan problemas.
A continuación se presentan los resultados de la regresión múltiple sin el dato atípico (Estado de México):
Tabla 2.2.6 Resumen del Modelo.
Se pude observar que el valor de la R2 mejoró; en el anterior modelo la R2 fue de 0.70. Por otro lado, la prueba de la tabla ANOVA se sigue manteniendo significativa.
Tabla 2.2.7 Coeficientes del Modelo.
Además en el valor de las ß"s cambian, pero los coeficientes estandarizados se mantienen iguales. Es decir, el peso de cada variable independiente se mantiene para la estimación de la variable dependiente.
Gráfica 2.2.6 Aleatoriedad de los residuales
Finalmente, la gráfica muestra la aleatoriedad de los residuales. Es importante mencionar que por la cantidad de datos (31 observaciones) los últimos 5 datos de la derecha en la gráfica no indican una tendencia de los residuales.
b). Valores Atípicos
El segundo tipo de datos importantes para analizar en un modelo de regresión, son los datos atípicos. Estos datos son aquellos que tienen un residual considerablemente alto, dos veces la desviación estándar. En otras palabras, son casos que no parecen seguir el mismo modelo que el resto de los datos. Para detectar valores que parecen atípicos se utiliza el siguiente procedimiento:
En caso de detectar un caso que parezca atípico (el i-esimo) se realiza la siguiente prueba para determinar si lo es. La forma de proceder es la siguiente:
Borrar el dato i-esimo de la matriz de datos y se ajusta el dato con los n-1 datos restantes.
Una vez calculado el nuevo modelo se obtiene ß y s2. A estos estimadores se les llama ß(i) y s2(i) para detectar que el modelo se corrió sin el i-esimo dato.
Para el dato i-esimo calculamos el valor de y(i)=Xtiß(i). El valor de y con el de y son independientes. Mientras que la varianza de (y(i)-y(i) esta dada por:
(18)
Finalmente para probar que es un dato atípico se aplica la prueba t, donde la prueba de hipótesis es Ho: (yi-yi)=0
(19)
De lo anterior se llega a lo que se conoce como "Residual deleted":
(20)
2.3 Componentes Principales
El método de componentes principales es describir la variación de un conjunto de variables en término de un nuevo conjunto de variables no correlacionadas; las cuales son combinación lineal de las variables originales. Una vez transformada la matriz original, se les dará el nombre de componentes principales a cada una de estas variables. Se busca además identificar nuevas variables significativas subyacentes conocidas como factores. Los componentes principales se pueden obtener a partir de la matriz de correlación o la matriz de covarianza. En el primer caso, las variables no conservan sus unidades, todas son transformadas en la misma escala lo cual implica que todas las variables tienen el mismo "peso"; además que la suma de los valores propios es igual al número de variables. Mientras que en el otro caso al usar la matriz de covarianzas se mantienen las unidades de las variables que le da diferentes pesos a cada una de ellas.
El análisis de componentes principales cuenta con las siguientes características:
1. La varianza de los componentes principales es igual a los eigenvalores (?) de la matriz original. Es decir, la suma de los eigenvalores es igual al número de variables totales porque explican el total de la variabilidad.
2. La primera componente principal es la combinación lineal de las variables originales que expresa la mayor varianza (?1). La segunda componente principal es la combinación lineal que explica la mayor varianza (?2) si no tomamos en cuenta la primera componente principal. Como los eigenvalores están ordenados por magnitud, las componentes principales quedan ordenadas por la cantidad de variabilidad que explica cada una.
3. Las k componentes no deben estar correlacionadas entre si.
El modelo principal de componentes principales queda determinado de la siguiente forma:
Para llevar acabo la transformación de los datos se piden dos condiciones:
1. Que la varianza que explica la primera componente sea mayor a la explicada por cualquiera de las componentes siguientes; que la segunda componente explique mayor variabilidad que las siguientes componentes. Así sucesivamente para el resto de las variables. Lo anterior se puede escribir de la siguiente forma:
Var (X1) = Var (X2) = Var (X3) = . . . = Var (Xk) (22)
2. Que las componentes sean linealmente independientes entre si. Es decir, que la correlación entre ellas sea cero
Cov ( Xi , Xj ) = 0 Para i ? j (23)
Para que la transformación sea única, se utiliza la siguiente restricción para cada uno de los vectores de coeficientes de cada componente principal:
(24)
Es importante mencionar que el porcentaje de variabilidad explicada por cada una de las componentes se obtiene a partir de los eigenvalores. Para determinar esto se divide el eigenvalor correspondiente entre la suma de todos los eigenvalores.
Ejemplo Práctico – Componentes Principales.
Para realizar un modelo de componentes principales en el programa SPSS se siguen los siguientes pasos: una vez cargados los datos en el programa, en la barra de menú, de la parte superior de la pantalla, seleccionamos "Analyze"; posteriormente seleccionamos "data Reduction"; y finalmente seleccionamos "Factor ".
Imagen SPSS 2.3.1 Selección de un Modelo de Componentes principales
Aparecerá un cuadro de dialogo como el siguiente:
Imagen SPSS 2.3.2 Cuadro de Dialogo de un Modelo de Componentes Principales
En la lista del lado izquierdo tenemos todas las variables de la base de datos. Por medio del cursor seleccionamos las variables que necesitamos incluir en nuestro modelo de componentes principales. Es importante recordar que necesitamos variables continuas en este tipo de modelos. En la misma pantalla, en la parte inferior, se puede determinar ciertos parámetros del modelo de Componentes Principales. Al presionar, en la parte inferior "Extraction" aparecerá otro cuadro de dialogo como el siguiente:
Imagen SPSS 2.3.3 Cuadro de "Extraction" de un Modelo de Componentes Principales
En este cuadro de dialogo se debe elegir como método "Principal Components". El programa da la opción de utilizar la matriz de varianzas o la matriz de covarianza de los datos. Es importante mencionar que en el caso de Componentes Principales el número de factores es igual al número de variables incluidas en el modelo; por lo tanto, en "Number of factor" ponemos el número total de variables del modelo. De la misma forma en la pantalla inicial se puede pedir la rotación de los factores en el modelo de Componentes Principales. Al presionar, en la parte inferior "Rotation" aparecerá otro cuadro de dialogo como el siguiente:
Imagen SPSS 2.3.4 Cuadro de "Rotation" de un Modelo de Componentes Principales
En este cuadro se indica el tipo de rotación en caso de ser necesario. El programa no trae predeterminado ninguna rotación. Así mismo se puede pedir que el programa muestre la solución rotada y su gráfica correspondiente, habilitando "Rotated Solution" y "Loadings Plots".
De la misma forma en la pantalla inicial se puede pedir guardar los factores en la base de datos original. Al presionar, en la parte inferior "Scores" aparecerá otro cuadro de dialogo como el siguiente:
Imagen SPSS 2.3.5 Cuadro de "Scores" de un Modelo de Componentes Principales
Al habilitar "Save as Variables" y "Regresión" el programa guardará en la base de datos los valores de los factores para cada uno de los factores del modelo de Componentes Principales.
Para ejemplificar la técnica de Componentes Principales vamos a considerar nuevamente la base de datos por estados. Ahora la técnica de componentes principales nos va ayudar a entender el grado de asociación que hay entre las cinco variables evaluadas: la proporción de unidades económicas respecto al país, la proporción de población económicamente activa (PEA) respecto al total de población, la proporción de personas con ingresos mayores a cinco salarios mínimos y el número de habitantes por universidad del estado. Al aplicar la técnica de componentes principales a nuestra base de datos obtenemos los siguientes resultados:
Tabla 2.3.1 Resumen de los factores.
La tabla muestra el Eigenvalor de las cinco componentes. Se puede observar como el primer Eigenvalor (2.518) representa el 50% de la varianza del total de información. Lo anterior nos señala que las cinco variables que se está considerando están altamente correlacionadas entre si. De manera contraria, el último Eigenvalor (0.018) sólo representa el 0.365% de la variabilidad de los datos. Del análisis de componentes principales se puede concluir que las cinco variables de la base de datos están sumamente correlacionadas entre si; ya que con las dos primeras componentes se podría representar el 88% de la variabilidad de los datos.
Tabla 2.3.2 Matriz de componentes.
La matriz de componentes muestra el grado de asociación entre cada una de las componentes y las variables del modelo. Es importante mencionar que entre más variabilidad explique la componente más relacionadas con las variables va a estar. Por lo anterior, la relación de la Componente Cinco con las variables es muy pobre a comparación de las primeras componentes.
La conclusión del ejercicio de componentes principales es que las cinco variables sociodemográficas podrían ser representada en dos Índice", independientes entre sí, con un mínima "perdida" de información.
2.4 ANÁLISIS DE FACTORES.
El método de análisis de factores es una técnica multivariada la cual tiene por objeto resumir la información en un número menor de variables con una perdida de información mínima. Esta técnica estadística puede derivarse a partir del modelo de componentes principales. Es decir, una vez que tenemos las k componentes principales quitamos aquellas que explican poca variabilidad con el objeto de reducir la dimensión de nuestro problema.
Es necesario que las variables originales estén correlacionadas de manera importante para que tenga sentido "resumir" la dimensión del problema. Si casi no están correlacionadas se corre el riesgo de que el número de componentes necesarias sea igual al número de variables iniciales.
De las aplicaciones más comunes de esta técnica multivariada están:
Identificar las relaciones que hay entre las distintas variables.
Identificar las variables más representativas que se encuentran en el conjunto de datos originales.
Obtener un número menor de variables, reducir la dimensión del problema.
En el modelo de factores se puede re-expresar la información de las variables X1, X2, X3, Xk en términos de:
La diferencia entre el método de factores y los componentes principales es que el primero de ellos es propiamente un modelo estadístico porque maneja residuos con el supuesto de que estos tienen una distribución Normal con media cero y varianza de s2; mientras que en el caso de componentes principales es una transformación que cumple con ciertas condiciones, sin embargo no hay ningún modelo detrás de esta transformación.
Página anterior | Volver al principio del trabajo | Página siguiente |