Descargar

El Problema de la Multicolinealidad

Enviado por uriol


     

    Indice1. Introducción 2. Detección de la multicolinealidad 3. Apéndice

    1. Introducción

    Uno de los supuestos del modelo de regresión lineal, es que no debe haber un alto grado de correlación entre las variables predeterminadas, pues esto, como se vio en clase, trae serias consecuencias que podemos resumir asi:

    • Los estimadores por mínimos cuadrados ordinarios siguen siendo lineales, insesgados y óptimos pero las estimaciones tienen varianzas y covarianzas grandes.
    • Las razones t de uno o mas coeficientes tienden a ser estadísticamente no significativas, con lo que se pierde de perspectiva el análisis.
    • Aun cuando la razón t de uno o mas coeficientes, es estadísticamente no significativa, el coeficiente de determinación tiende a ser elevado, con lo que se demuestra que no se puede separar el efecto individual de cada variable predeterminada hacia la endógena.

    Luego entonces, es necesario que luego de estimado un modelo, tengamos que determinar la existencia o no de un alto grado de correlación entre las variables predeterminadas.

    2. Detección de la multicolinealidad

    Los métodos de detección de multicolinealidad que vamos a estudiar son: 1.- Método de la relación entre t y R2 Mediante este método podemos determinar la existencia de multicolinealidad observando las razones t y si estas no son estadísticamente significativas y contamos con un coeficiente de determinación elevado (superior a 0.80), podemos estar ante un síntoma claro de multicolinealidad. 2.- Método de la matriz de correlación Como el problema de multicolinealidad es un problema con las variables predeterminadas, establecemos una matrix de correlación entre aquellas, es decir:

    Como es de notar, si la correlación entre las variables predeterminadas fuera 1, extrema correlación, el determinante de R será igual a cero, caso contrario, si la correlación fuera 0, el determinante será igual a 1, por lo que podemos esbozar una regla en los siguientes términos: Si el determinante de la matrix R es cercano a cero, el grado de multicolinealidad es considerable; si es cercano a uno, la correlación entre las variables no será de consideración. 3.- Método de la prueba F En un modelo de K-1 variables predeterminadas, es conveniente determinar cual de las mencionadas variables X esta correlacionada con las restantes para lo cual hay necesidad de hacer regresiones auxiliares de cada X con las restantes y obtener el R2 correspondiente. Luego siguiendo la relación entre F y R2 se establece el siguiente probador:

    Que sigue una distribución F con k-2 G.L. para el numerador y n-k+1 G.L para el denominador y n: tamaño de la muestra

    :coeficiente de determinación en la regresión de alguna Xk con las restantes incluidas en el modelo.

    La regla de decisión es: Si Fc excede al F tabulado a cierto nivel de significación, se dice entonces que la Xk en particular es colineal con las demás. 4.- Método de los valores propios e índice de condición El tema de los valores propios es uno puramente matemático, que tiene que ver con el álgebra matricial y que de alguna manera ponemos de manifiesto en el apéndice y que son calculados por los paquetes econométricos y matemáticos del caso. En todo caso, partiendo de los valores propios de la matrix X’X, que es la que contiene las variables predeterminadas, se establece lo que se conoce como número de condición (K):

    y el índice de condición (IC), definido como:

    Luego la regla del caso es: Si K esta entre 100 y 1000, existe multicolinealidad que va desde moderada a fuerte, mientras que si excede a 1000, existe multicolinealidad severa. De otro lado, si el índice de condición esta entre 10 y 30, existe multicolinealidad entre moderada y fuerte y si excede 30, existe multicolinealidad severa.

    Aplicación Para aplicar todo lo expuesto anteriormente, vamos a estimar un modelo que contiene una variable endógena y dos predeterminadas. La especificación es la siguiente:

    Donde: IMP: Importaciones PBI: Producto Bruto Interno INV: Inversión La especificación anterior implica que las importaciones estarían en relación directa con el indicador de la actividad económica y con la inversión lo que quiere decir que sus coeficientes B2 y B3 deben ser positivos. La estimación para el periodo 1950 1982 es:

    Dependent Variable: IMP

    Method: Least Squares

    Date: 11/20/01 Time: 06:31

    Sample: 1950 1982

    Included observations: 33

    Variable

    Coefficient

    Std. Error

    t-Statistic

    Prob.

    C

    -54.22780

    27.62708

    -1.962849

    0.0590

    PBI

    0.148221

    0.032709

    4.531469

    0.0001

    INV

    0.443829

    0.125104

    3.547686

    0.0013

    R-squared

    0.950615

    Adjusted R-squared

    0.947322

    S.E. of regression

    59.42963

    Sum squared resid

    105956.4

    F-statistic

    288.7343

    Prob(F-statistic)

    0.000000

    Como podemos observar, nuestros coeficientes tienen los signos esperados y hay significación estadística. Del mismo modo en lo que respecta a la relevancia global, el coeficiente de determinación es considerablemente alto del mismo modo F calculado con lo que hasta aquí podríamos decir que es un modelo que esta explicando muy bien el fenómeno económico que estamos tratando. Veamos el problema de la multicolinealidad. 1.- Método de la relación entre t y R2 Podríamos decir ahora que este método es referencial y aplicado a nuestro caso, significa que no existe multicolinealidad puesto que las razones t implican significación estadística, siendo nuestra única sospecha el elevado coeficiente de determinación. 2.- Método de la matriz de correlación En lo que respecta a este método, vamos a hacer uso del Eviews, para encontrar directamente matrix de correlación entre dos variables, aplicamos la siguiente orden: cor pbi inv y obtenemos:

    PBI

    INV

    PBI

    1.000000

    0.943459

    INV

    0.943459

    1.000000

    Con lo que queda claro que la correlación entre PBI e INV es considerable. El resultado anterior no es una matrix y en consecuencia no podemos encontrar su determinante. La forma como podemos encontrar los mismos valores partiendo de una matrix es con el siguiente procedimiento:

    • Convertir en grupo las predeterminadas con la orden:

    GROUP GR PBI INV donde GR es el nombre del grupo de variables compuesto por PBI e INV, pudo haber sido cualquier nombre.

    • Aplicar la siguiente orden:

    Matrix matcor=@cor(GR) que nos da el siguiente resultado:

    C1

    C2

    R1

    1.000000

    0.943459

    R2

    0.943459

    1.000000

    Hay que destacar que cuando damos la orden (Matrix ) con la palabra matrix estamos indicando que el resultado será una matrix, pudo haber sido un vector o un escalar lógicamente que para nuestro caso es una matrix. matcor es el nombre de la matrix, pudo haber sido otro, lo que estamos haciendo es nombrar acorde con lo que pretendemos calcular, matcor, significaría matrix de correlación. Luego del signo = esta la orden propiamente dicha precedida del signo de arroba.

    • Eviews puede ahora manipular la matrix matcor y luego para encontrar el determinante hacemos lo siguiente:

    Scalar C2=@determinant(matcor) Como siempre c2 es el nombre del scalar, pudo haber sido otro. El resultado es: Scalar C2=0.109885115319 Es decir el determinante de la matrix de correlación es el número indicado mas arriba. En cuanto a la interpretación, podemos decir que el valor no esta cercano a cero, pero tampoco a uno, luego por este método hay menos que perfecta correlación. 3.- Método de la prueba F Para aplicar este método, tenemos que hacer la regresión de PBI contra INV (X2 con las restantes, X3) Esto es:

    Dependent Variable: PBI

    Method: Least Squares

    Date: 11/20/01 Time: 07:59

    Sample: 1950 1982

    Included observations: 33

    Variable

    Coefficient

    Std. Error

    t-Statistic

    Prob.

    C

    480.5837

    124.7485

    3.852421

    0.0005

    INV

    3.608454

    0.227712

    15.84659

    0.0000

    R-squared

    0.890116

    Adjusted R-squared

    0.886571

    S.E. of regression

    326.3249

    Sum squared resid

    3301125.

    F-statistic

    251.1145

    Prob(F-statistic)

    0.000000

    Este método es aplicable a situaciones donde habría mas de dos variables predeterminadas pues si nos damos cuenta en el numerador del probador hay que corregir por K-2 G.L con lo que quedaría una división por cero, haciendo inaplicable el mencionado método. Sin embargo, habría que tener en cuenta que el coeficiente de determinación para la regresión de PBI con INV es 0.890116 y si queremos encontrar la correlación, habría que sacar raíz cuadrada al mencionado coeficiente, con lo que el resultado es:0.943459 tal como fue calculado mas arriba. 4.- Método de los valores propios e índice de condición Consideramos este método como el mas indicado para determinar la multicolinealidad ya que tiene que ver con la matrix de momentos X’X, que como demostramos en su momento si hay interaccion completa no se puede encontrar la inversa y consecuentemente tampoco los coeficientes de regresión. Veamos con el Eviews como conseguimos la matrix X’X. En primer lugar debemos agrupar las predeterminadas pero considerando una columna de 1’s para recoger el termino independiente: GROUP GRP 1 PBI INV cuyo resultado es

    obs

    1

    PBI

    INV

    1950

    1.000000

    890.7500

    163.1300

    1951

    1.000000

    960.0600

    190.3300

    1952

    1.000000

    1009.610

    210.8900

    1953

    1.000000

    1073.500

    247.7000

    1954

    1.000000

    1103.330

    223.1000

    1955

    1.000000

    1185.380

    260.5000

    1956

    1.000000

    1239.030

    321.7000

    1957

    1.000000

    1299.500

    351.8000

    1958

    1.000000

    1303.490

    313.7000

    1959

    1.000000

    1310.180

    247.2000

    1960

    1.000000

    1491.180

    265.9000

    1961

    1.000000

    1623.650

    336.0000

    1962

    1.000000

    1744.720

    383.0000

    1963

    1.000000

    1825.560

    364.1000

    1964

    1.000000

    1952.820

    358.9000

    1965

    1.000000

    2084.240

    428.6000

    1966

    1.000000

    2260.000

    480.8000

    1967

    1.000000

    2350.270

    442.5000

    1968

    1.000000

    2325.320

    376.2000

    1969

    1.000000

    2385.300

    389.4000

    1970

    1.000000

    2571.500

    436.0000

    1971

    1.000000

    2686.980

    492.0000

    1972

    1.000000

    2773.230

    510.6000

    1973

    1.000000

    2919.500

    698.3000

    1974

    1.000000

    3073.440

    884.4000

    1975

    1.000000

    3316.910

    916.2000

    1976

    1.000000

    3363.400

    788.5000

    1977

    1.000000

    3361.570

    723.4000

    1978

    1.000000

    3361.180

    659.0000

    1979

    1.000000

    3562.400

    723.6000

    1980

    1.000000

    3728.570

    882.0000

    1981

    1.000000

    3899.040

    1024.100

    1982

    1.000000

    3903.340

    1001.900

    Aplicar la siguiente orden: Sym XX=@inner(GRP) obteniendo:

    C1

    C2

    C3

    R1

    33.00000

    73938.95

    16095.45

    R2

    73938.95

    195707488.0

    43473608

    R3

    16095.45

    43473608

    9904075.

    Una nota adicional ponemos sym para indicar que el resultado será una matrix simétrica y además porque la orden para encontrar los valores propios funciona solo para matrices simétricas. Que es la matrix X’X, en nuestro caso matrix de las predeterminadas PBI INV. De esta matrix es de la que habría que encontrar los valores propios pero tenemos un inconveniente. Veamos: Vector VPRO=@eigenvalues(XX)

    R1

    4.627378

    R2

    235407.7

    R3

    205376183.8

    El resultado es un vector columna que contiene los valores propios (VRPO. Pero observemos que si aplicamos la formula de K e IC los resultados serian: K = 44382841.38 IC = 6662.044835

    Con lo que nuestras conclusiones respecto a la multicolinealidad serían sesgadas. ¿Qué es lo que se recomienda? Consideramos que la recomendación hecha por los autores, mas precisa es que se tiene que "normalizar las columnas de X’X" dividiendo la mencionada matrix por la raíz cuadrada de su diagonal principal, lo que en términos del álgebra lineal sería: XXn=S*X’X*S XXn: Para nuestro caso significa X’X normalizada. S : Es una matrix diagonal cuyos elementos son

    XXk,k :Elementos de la diagonal principal de X’X Veamos como obtenemos todo esto con Eviews: Una nota: no olvidemos que la inversa de una diagonal es igual a 1 divididos por los elementos de la diagonal, justamente lo que necesitamos. Para ello usamos la sentencia compuesta: matrix

    Es lógico que conviene hacer algunas aclaraciones respecto a las ordenes aplicadas con Eviews: @getmaindiagonal: Crea un vector a partir de la diagonal principal de una matrix cuadrada. Nosotros además hemos extraído raiz cuadrada (sqr).El Help de Eviews dice: Syntax: @getmaindiagonal(m) Argument: matrix or sym, m Return: vector @makediagonal: Crea una matrix diagonal a partir de un vector. El Help dice: Usage: @makediagonal(v, k) Argument 1: vector or rowvector, v Argument 2: (optional) integer, k Return: matrix Luego a esa matrix diagonal creada le aplicamos la sentencia @inverse, que encuentra la inversa de una matrix, en este caso la matrix diagonal formada por la raíz cuadrada de los elementos de la diagonal principal de X’X. Determinar ahora la matrix normalizada XXn: Sym XXn=S*XX*S obteniendo:

    C1

    C2

    C3

    R1

    1.000000

    0.920052

    0.890306

    R2

    0.920052

    1.000000

    0.987450

    R3

    0.890306

    0.987450

    1.000000

    De esta matrix normalizada encontramos los valores propios:

    Vector )

    Siendo el resultado:

    C1

    R1

    0.009812

    R2

    0.124385

    R3

    2.865803

    Si encontramos el número de condición, para nuestro caso:

    Con estos resultados analizamos el problema de la multicolinealidad,

    3. Apéndice

    Valores propios y vectores propios El cálculo de los valores propios y de los vectores propios de una matriz simétrica tiene gran importancia en las matemáticas y en la ingeniería, entre los que cabe destacar, el problema de la diagonalización de una matriz, el cálculo de los momentos de inercia y de los ejes principales de inercia de un sólido rígido, o de las frecuencias propias de oscilación de un sistema oscilante. Se denominan valores propios o raíces características de una matriz cuadrada A, a los valores de l tales que. Desarrollando el determinante tenemos un polinomio de grado n. Trataremos de encontrar los coeficientes del polinomio, y luego aplicaremos un método de hallar las raíces del polinomio. Este procedimiento es apropiado cuando se presentan valores propios que no son reales sino complejos. Una vez hallados los valores propios, para hallar el vector propio X correspondiente al valor propio l es necesario resolver el sistema homogéneo

    Vamos a desarrollar un ejemplo: Supongamos que tenemos la matriz:

    Vamos a encontrar sus raices características o valores propios, para ello también tenemos la matriz identidad:

    El resultado A-l I es otra matriz:

    Teniendo en cuenta que I es la matrix identidad Si hallamos el determinante de la matrix anterior, obtenemos:

    Que no es otra cosa que un polinomio de segundo grado, luego encontrando las raíces de este polinomio (polinomio característico) Estas lambdas, son las raíces características o valores propios de la matrix A. Como ejercicio, el lector sustituya cada una de las raíces en el polinomio y observara el resultado. Apliquemos este procedimiento a nuestro caso estudio:

    La matrix característica es:

    A-l I=

    El determinante(polinomio característico) de la matrix característica es:

    Sus raíces son:

    Que coinciden con el resultado mostrado mediante el calculo de EVIEWS.

     

     

     

    Autor:

    Javier Uriol Chávez