Indice1. Introducción 2. Detección de la multicolinealidad 3. Apéndice
Uno de los supuestos del modelo de regresión lineal, es que no debe haber un alto grado de correlación entre las variables predeterminadas, pues esto, como se vio en clase, trae serias consecuencias que podemos resumir asi:
- Los estimadores por mínimos cuadrados ordinarios siguen siendo lineales, insesgados y óptimos pero las estimaciones tienen varianzas y covarianzas grandes.
- Las razones t de uno o mas coeficientes tienden a ser estadísticamente no significativas, con lo que se pierde de perspectiva el análisis.
- Aun cuando la razón t de uno o mas coeficientes, es estadísticamente no significativa, el coeficiente de determinación tiende a ser elevado, con lo que se demuestra que no se puede separar el efecto individual de cada variable predeterminada hacia la endógena.
Luego entonces, es necesario que luego de estimado un modelo, tengamos que determinar la existencia o no de un alto grado de correlación entre las variables predeterminadas.
2. Detección de la multicolinealidad
Los métodos de detección de multicolinealidad que vamos a estudiar son: 1.- Método de la relación entre t y R2 Mediante este método podemos determinar la existencia de multicolinealidad observando las razones t y si estas no son estadísticamente significativas y contamos con un coeficiente de determinación elevado (superior a 0.80), podemos estar ante un síntoma claro de multicolinealidad. 2.- Método de la matriz de correlación Como el problema de multicolinealidad es un problema con las variables predeterminadas, establecemos una matrix de correlación entre aquellas, es decir:
Como es de notar, si la correlación entre las variables predeterminadas fuera 1, extrema correlación, el determinante de R será igual a cero, caso contrario, si la correlación fuera 0, el determinante será igual a 1, por lo que podemos esbozar una regla en los siguientes términos: Si el determinante de la matrix R es cercano a cero, el grado de multicolinealidad es considerable; si es cercano a uno, la correlación entre las variables no será de consideración. 3.- Método de la prueba F En un modelo de K-1 variables predeterminadas, es conveniente determinar cual de las mencionadas variables X esta correlacionada con las restantes para lo cual hay necesidad de hacer regresiones auxiliares de cada X con las restantes y obtener el R2 correspondiente. Luego siguiendo la relación entre F y R2 se establece el siguiente probador:
Que sigue una distribución F con k-2 G.L. para el numerador y n-k+1 G.L para el denominador y n: tamaño de la muestra
:coeficiente de determinación en la regresión de alguna Xk con las restantes incluidas en el modelo.
La regla de decisión es: Si Fc excede al F tabulado a cierto nivel de significación, se dice entonces que la Xk en particular es colineal con las demás. 4.- Método de los valores propios e índice de condición El tema de los valores propios es uno puramente matemático, que tiene que ver con el álgebra matricial y que de alguna manera ponemos de manifiesto en el apéndice y que son calculados por los paquetes econométricos y matemáticos del caso. En todo caso, partiendo de los valores propios de la matrix X’X, que es la que contiene las variables predeterminadas, se establece lo que se conoce como número de condición (K):
y el índice de condición (IC), definido como:
Luego la regla del caso es: Si K esta entre 100 y 1000, existe multicolinealidad que va desde moderada a fuerte, mientras que si excede a 1000, existe multicolinealidad severa. De otro lado, si el índice de condición esta entre 10 y 30, existe multicolinealidad entre moderada y fuerte y si excede 30, existe multicolinealidad severa.
Aplicación Para aplicar todo lo expuesto anteriormente, vamos a estimar un modelo que contiene una variable endógena y dos predeterminadas. La especificación es la siguiente:
Donde: IMP: Importaciones PBI: Producto Bruto Interno INV: Inversión La especificación anterior implica que las importaciones estarían en relación directa con el indicador de la actividad económica y con la inversión lo que quiere decir que sus coeficientes B2 y B3 deben ser positivos. La estimación para el periodo 1950 1982 es:
Dependent Variable: IMP | ||||
Method: Least Squares | ||||
Date: 11/20/01 Time: 06:31 | ||||
Sample: 1950 1982 | ||||
Included observations: 33 | ||||
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
C | -54.22780 | 27.62708 | -1.962849 | 0.0590 |
PBI | 0.148221 | 0.032709 | 4.531469 | 0.0001 |
INV | 0.443829 | 0.125104 | 3.547686 | 0.0013 |
R-squared | 0.950615 | |||
Adjusted R-squared | 0.947322 | |||
S.E. of regression | 59.42963 | |||
Sum squared resid | 105956.4 | |||
F-statistic | 288.7343 | |||
Prob(F-statistic) | 0.000000 |
Como podemos observar, nuestros coeficientes tienen los signos esperados y hay significación estadística. Del mismo modo en lo que respecta a la relevancia global, el coeficiente de determinación es considerablemente alto del mismo modo F calculado con lo que hasta aquí podríamos decir que es un modelo que esta explicando muy bien el fenómeno económico que estamos tratando. Veamos el problema de la multicolinealidad. 1.- Método de la relación entre t y R2 Podríamos decir ahora que este método es referencial y aplicado a nuestro caso, significa que no existe multicolinealidad puesto que las razones t implican significación estadística, siendo nuestra única sospecha el elevado coeficiente de determinación. 2.- Método de la matriz de correlación En lo que respecta a este método, vamos a hacer uso del Eviews, para encontrar directamente matrix de correlación entre dos variables, aplicamos la siguiente orden: cor pbi inv y obtenemos:
PBI | INV | |
PBI | 1.000000 | 0.943459 |
INV | 0.943459 | 1.000000 |
Con lo que queda claro que la correlación entre PBI e INV es considerable. El resultado anterior no es una matrix y en consecuencia no podemos encontrar su determinante. La forma como podemos encontrar los mismos valores partiendo de una matrix es con el siguiente procedimiento:
- Convertir en grupo las predeterminadas con la orden:
GROUP GR PBI INV donde GR es el nombre del grupo de variables compuesto por PBI e INV, pudo haber sido cualquier nombre.
- Aplicar la siguiente orden:
Matrix matcor=@cor(GR) que nos da el siguiente resultado:
C1 | C2 | |
R1 | 1.000000 | 0.943459 |
R2 | 0.943459 | 1.000000 |
Hay que destacar que cuando damos la orden (Matrix ) con la palabra matrix estamos indicando que el resultado será una matrix, pudo haber sido un vector o un escalar lógicamente que para nuestro caso es una matrix. matcor es el nombre de la matrix, pudo haber sido otro, lo que estamos haciendo es nombrar acorde con lo que pretendemos calcular, matcor, significaría matrix de correlación. Luego del signo = esta la orden propiamente dicha precedida del signo de arroba.
- Eviews puede ahora manipular la matrix matcor y luego para encontrar el determinante hacemos lo siguiente:
Scalar C2=@determinant(matcor) Como siempre c2 es el nombre del scalar, pudo haber sido otro. El resultado es: Scalar C2=0.109885115319 Es decir el determinante de la matrix de correlación es el número indicado mas arriba. En cuanto a la interpretación, podemos decir que el valor no esta cercano a cero, pero tampoco a uno, luego por este método hay menos que perfecta correlación. 3.- Método de la prueba F Para aplicar este método, tenemos que hacer la regresión de PBI contra INV (X2 con las restantes, X3) Esto es:
Dependent Variable: PBI | ||||
Method: Least Squares | ||||
Date: 11/20/01 Time: 07:59 | ||||
Sample: 1950 1982 | ||||
Included observations: 33 | ||||
Variable | Coefficient | Std. Error | t-Statistic | Prob. |
C | 480.5837 | 124.7485 | 3.852421 | 0.0005 |
INV | 3.608454 | 0.227712 | 15.84659 | 0.0000 |
R-squared | 0.890116 | |||
Adjusted R-squared | 0.886571 | |||
S.E. of regression | 326.3249 | |||
Sum squared resid | 3301125. | |||
F-statistic | 251.1145 | |||
Prob(F-statistic) | 0.000000 |
Este método es aplicable a situaciones donde habría mas de dos variables predeterminadas pues si nos damos cuenta en el numerador del probador hay que corregir por K-2 G.L con lo que quedaría una división por cero, haciendo inaplicable el mencionado método. Sin embargo, habría que tener en cuenta que el coeficiente de determinación para la regresión de PBI con INV es 0.890116 y si queremos encontrar la correlación, habría que sacar raíz cuadrada al mencionado coeficiente, con lo que el resultado es:0.943459 tal como fue calculado mas arriba. 4.- Método de los valores propios e índice de condición Consideramos este método como el mas indicado para determinar la multicolinealidad ya que tiene que ver con la matrix de momentos X’X, que como demostramos en su momento si hay interaccion completa no se puede encontrar la inversa y consecuentemente tampoco los coeficientes de regresión. Veamos con el Eviews como conseguimos la matrix X’X. En primer lugar debemos agrupar las predeterminadas pero considerando una columna de 1’s para recoger el termino independiente: GROUP GRP 1 PBI INV cuyo resultado es
obs | 1 | PBI | INV |
1950 | 1.000000 | 890.7500 | 163.1300 |
1951 | 1.000000 | 960.0600 | 190.3300 |
1952 | 1.000000 | 1009.610 | 210.8900 |
1953 | 1.000000 | 1073.500 | 247.7000 |
1954 | 1.000000 | 1103.330 | 223.1000 |
1955 | 1.000000 | 1185.380 | 260.5000 |
1956 | 1.000000 | 1239.030 | 321.7000 |
1957 | 1.000000 | 1299.500 | 351.8000 |
1958 | 1.000000 | 1303.490 | 313.7000 |
1959 | 1.000000 | 1310.180 | 247.2000 |
1960 | 1.000000 | 1491.180 | 265.9000 |
1961 | 1.000000 | 1623.650 | 336.0000 |
1962 | 1.000000 | 1744.720 | 383.0000 |
1963 | 1.000000 | 1825.560 | 364.1000 |
1964 | 1.000000 | 1952.820 | 358.9000 |
1965 | 1.000000 | 2084.240 | 428.6000 |
1966 | 1.000000 | 2260.000 | 480.8000 |
1967 | 1.000000 | 2350.270 | 442.5000 |
1968 | 1.000000 | 2325.320 | 376.2000 |
1969 | 1.000000 | 2385.300 | 389.4000 |
1970 | 1.000000 | 2571.500 | 436.0000 |
1971 | 1.000000 | 2686.980 | 492.0000 |
1972 | 1.000000 | 2773.230 | 510.6000 |
1973 | 1.000000 | 2919.500 | 698.3000 |
1974 | 1.000000 | 3073.440 | 884.4000 |
1975 | 1.000000 | 3316.910 | 916.2000 |
1976 | 1.000000 | 3363.400 | 788.5000 |
1977 | 1.000000 | 3361.570 | 723.4000 |
1978 | 1.000000 | 3361.180 | 659.0000 |
1979 | 1.000000 | 3562.400 | 723.6000 |
1980 | 1.000000 | 3728.570 | 882.0000 |
1981 | 1.000000 | 3899.040 | 1024.100 |
1982 | 1.000000 | 3903.340 | 1001.900 |
Aplicar la siguiente orden: Sym XX=@inner(GRP) obteniendo:
C1 | C2 | C3 | |
R1 | 33.00000 | 73938.95 | 16095.45 |
R2 | 73938.95 | 195707488.0 | 43473608 |
R3 | 16095.45 | 43473608 | 9904075. |
Una nota adicional ponemos sym para indicar que el resultado será una matrix simétrica y además porque la orden para encontrar los valores propios funciona solo para matrices simétricas. Que es la matrix X’X, en nuestro caso matrix de las predeterminadas PBI INV. De esta matrix es de la que habría que encontrar los valores propios pero tenemos un inconveniente. Veamos: Vector VPRO=@eigenvalues(XX)
R1 | 4.627378 |
R2 | 235407.7 |
R3 | 205376183.8 |
El resultado es un vector columna que contiene los valores propios (VRPO. Pero observemos que si aplicamos la formula de K e IC los resultados serian: K = 44382841.38 IC = 6662.044835
Con lo que nuestras conclusiones respecto a la multicolinealidad serían sesgadas. ¿Qué es lo que se recomienda? Consideramos que la recomendación hecha por los autores, mas precisa es que se tiene que "normalizar las columnas de X’X" dividiendo la mencionada matrix por la raíz cuadrada de su diagonal principal, lo que en términos del álgebra lineal sería: XXn=S*X’X*S XXn: Para nuestro caso significa X’X normalizada. S : Es una matrix diagonal cuyos elementos son
XXk,k :Elementos de la diagonal principal de X’X Veamos como obtenemos todo esto con Eviews: Una nota: no olvidemos que la inversa de una diagonal es igual a 1 divididos por los elementos de la diagonal, justamente lo que necesitamos. Para ello usamos la sentencia compuesta: matrix
Es lógico que conviene hacer algunas aclaraciones respecto a las ordenes aplicadas con Eviews: @getmaindiagonal: Crea un vector a partir de la diagonal principal de una matrix cuadrada. Nosotros además hemos extraído raiz cuadrada (sqr).El Help de Eviews dice: Syntax: @getmaindiagonal(m) Argument: matrix or sym, m Return: vector @makediagonal: Crea una matrix diagonal a partir de un vector. El Help dice: Usage: @makediagonal(v, k) Argument 1: vector or rowvector, v Argument 2: (optional) integer, k Return: matrix Luego a esa matrix diagonal creada le aplicamos la sentencia @inverse, que encuentra la inversa de una matrix, en este caso la matrix diagonal formada por la raíz cuadrada de los elementos de la diagonal principal de X’X. Determinar ahora la matrix normalizada XXn: Sym XXn=S*XX*S obteniendo:
C1 | C2 | C3 | |
R1 | 1.000000 | 0.920052 | 0.890306 |
R2 | 0.920052 | 1.000000 | 0.987450 |
R3 | 0.890306 | 0.987450 | 1.000000 |
De esta matrix normalizada encontramos los valores propios:
Vector )
Siendo el resultado:
C1 | |
R1 | 0.009812 |
R2 | 0.124385 |
R3 | 2.865803 |
Si encontramos el número de condición, para nuestro caso:
Con estos resultados analizamos el problema de la multicolinealidad,
Valores propios y vectores propios El cálculo de los valores propios y de los vectores propios de una matriz simétrica tiene gran importancia en las matemáticas y en la ingeniería, entre los que cabe destacar, el problema de la diagonalización de una matriz, el cálculo de los momentos de inercia y de los ejes principales de inercia de un sólido rígido, o de las frecuencias propias de oscilación de un sistema oscilante. Se denominan valores propios o raíces características de una matriz cuadrada A, a los valores de l tales que. Desarrollando el determinante tenemos un polinomio de grado n. Trataremos de encontrar los coeficientes del polinomio, y luego aplicaremos un método de hallar las raíces del polinomio. Este procedimiento es apropiado cuando se presentan valores propios que no son reales sino complejos. Una vez hallados los valores propios, para hallar el vector propio X correspondiente al valor propio l es necesario resolver el sistema homogéneo
Vamos a desarrollar un ejemplo: Supongamos que tenemos la matriz:
Vamos a encontrar sus raices características o valores propios, para ello también tenemos la matriz identidad:
El resultado A-l I es otra matriz:
Teniendo en cuenta que I es la matrix identidad Si hallamos el determinante de la matrix anterior, obtenemos:
Que no es otra cosa que un polinomio de segundo grado, luego encontrando las raíces de este polinomio (polinomio característico) Estas lambdas, son las raíces características o valores propios de la matrix A. Como ejercicio, el lector sustituya cada una de las raíces en el polinomio y observara el resultado. Apliquemos este procedimiento a nuestro caso estudio:
La matrix característica es:
A-l I=
El determinante(polinomio característico) de la matrix característica es:
Sus raíces son:
Que coinciden con el resultado mostrado mediante el calculo de EVIEWS.
Autor:
Javier Uriol Chávez