ei ?Yi ?Y i,i ?1,2,3…,n ?(e ?e MSE?1?? ? ? ? ?? ADECUACIÓN DEL MODELO DE REGRESIÓN LINEAL,POR DR. PRIMITIVO REYES AGUILAR 2.1 Introducción Los principales supuestos que se hacen en el análisis de regresión lineal son los siguientes: 1. La relación entre las variables Y y X es lineal, o al menos bien aproximada por una línea recta. 2. El término de error ? tiene media cero. 2 4. Los errores no están correlacionados. 5. Los errores están normalmente distribuidos.
Los supuestos 4 y 5 implican que los errores son variables aleatorias independientes y el supuesto 5 se requiere para pruebas de hipótesis y estimación de parámetros.
Se analizarán varios métodos para diagnosticar y tratar violaciones sobre los supuestos básicos de la regresión no sólo lineal sino también la múltiple.
2.2 Análisis de los residuos 2.2.1 Definición de los residuos Los residuos están definidos como las n diferencias, ^ (2.1) donde Yi son las observaciones reales y Y-gorro los valores estimados con la recta de regresión.
Como los residuos son las diferencias entre las observaciones reales y las predichas o estimadas, son una medida de la variabilidad no explicada por el modelo de regresión, e el valor observado de los errores. Así, cualquier desviación anormal de los supuestos acerca de los errores, será mostrada por los residuos. Su análisis es un método efectivo para descubrir varios tipos de deficiencias del modelo.
Los residuos tienen varias propiedades importantes. Su media es cero y su varianza aproximada es: ? MSE ? ? SSE n?2 n 2 i i?1 n?2 i?1 n __ 2 i ? e) n?2 (2.2) En algunos casos es mejor trabajar con residuos estandarizados, que tienen media cero y varianza unitaria aproximada. ei MSE ,….1?1,2,…..,n di ? (2.3) Para el caso de n pequeña, donde se pueden tener diferencias apreciables en las varianzas de los residuos, un método más apropiado de escalamiento es el de los residuos estudentizados , donde se toma en cuenta la varianza de cada uno en lugar de un promedio de las varianzas como en los residuos estandarizados. Para n grande, ambos residuos son muy parecidos.
Los residuos estudentizados se definen como: , ? ?1 i (X i ? X)2 ?? SXX ?? ? ?n ei r ? i = 1, 2, …….., n (2.4) Por lo anterior los residuos representan los errores observados si el modelo es correcto.
Los residuos pueden ser graficados para: 1. Checar normalidad. 2. Checar el efecto del tiempo si su orden es conocido en los datos. 3. Checar la constancia de la varianza y la posible necesidad de transformar los datos en Y. 4. Checar la curvatura de más alto orden que ajusta en las Xs.
A continuación con Minitab se calculan los residuos con los datos del ejemplo 1.1 y a partir de la recta de ajuste.
Observaciónes 2.2.2 Gráfica de probabilidad normal Se utiliza la gráfica de probabilidad normal para identificar si algunos residuos sesgan la respuesta de la normal. Normalmente se requieren 20 puntos para checar normalidad. Normplot of Residuals for C1
La gráfica de residuos contra los valores estimados Residuals vs Fits for C1 Se sugiere utilizar los residuos estandarizados, ya que son útiles para evaluar normalidad, es decir que habrá normalidad si el 68% de los mismos se encuentran entre 1 y +1 y el 95% entre 2 y +2, de otra forma habrá una violación de la normalidad. ^ yi puede identificar patrones anormales o no lineales, indicando que tal vez se requiera agregar otra variable regresora al modelo, o se requiera transformar las variables regresora o de respuesta. También puede revelar outliers potenciales, si ocurren en los extremos, indican que la varianza no es constante o que no hay relación lineal entre variables.
Para el caso del ejemplo 1.2 con los datos X y Y se tienen los residuos estandarizados y estudentizados son:
Utilizando Minitab se tiene: Regression Analysis: Y versus X The regression equation is Y = 2628 – 37.2 X Predictor Coef SE Coef T P Constant 2627.82 44.18 59.47 0.000 X -37.154 2.889 -12.86 0.000 S = 96.1061 R-Sq = 90.2% R-Sq(adj) = 89.6%
Analysis of Variance Source DF SS MS F P Regression 1 1527483 1527483 165.38 0.000 Residual Error 18 166255 9236 Total 19 1693738
No replicates. Cannot do pure error test.
Unusual Observations Obs X Y Fit SE Fit Residual St Resid 5 5.5 2207.5 2423.5 31.3 6 19.0 1708.3 1921.9 27.0 -216.0 -213.6 -2.38R -2.32R La tabla de valores estimados Fits, Residuos, Residuos estandarizados, Residuos estudentizados borrados y Residuos estudentizados simples se muestra a continuación:
Para el cálculo de los residuos estudentizados se utilizó la tabla siguiente: MSE = Raiz MSE (Xi- Xmedia)^2 9236 96.10411021
1/20 + (Xi- Y 2158.70 1678.15 2316.00 2061.30 2207.50 1708.30 1784.70 2575.00 2357.90 2256.70 2165.20 2399.55 1779.80 2336.75 1765.30 2053.50 2414.40 2200.50 2654.20 1753.70 X 15.50 23.75 8.00 17.00 5.50 19.00 24.00 2.50 7.50 11.00 13.00 3.75 25.00 9.75 22.00 18.00 6.00 12.50 2.00 21.50 FITS1 2051.94 1745.42 2330.59 1996.21 2423.48 1921.9 1736.14 2534.94 2349.17 2219.13 2144.83 2488.5 1698.98 2265.57 1810.44 1959.06 2404.9 2163.4 2553.52 1829.02 RESI1 106.7580 -67.2750 -14.5940 65.0890 -215.9780 -213.6040 48.5640 40.0620 8.7300 37.5670 20.3740 -88.9460 80.8170 71.1750 -45.1430 94.4420 9.4990 37.0980 100.6850 -75.3200 ResEstan1 1.11086 -0.70002 -0.15186 0.67728 -2.24733 -2.22263 0.50533 0.41686 0.09084 0.39090 0.21200 -0.92552 0.84093 0.74060 -0.46973 0.98271 0.09884 0.38602 1.04767 -0.78373 Sxx 4.56891 107.90016 28.75641 13.23141 61.81891 31.78141 113.15641 117.99391 34.36891 5.58141 0.13141 92.40016 135.43141 13.05016 74.60641 21.50641 54.20641 0.74391 129.10641 66.21891 Xmedia)^2/Sxx 0.05413 0.14751 0.07599 0.06196 0.10587 0.07872 0.15226 0.15663 0.08106 0.05504 0.05012 0.13350 0.17239 0.06179 0.11742 0.06944 0.09899 0.05067 0.16667 0.10984 Ri 1.14220 -0.75817 -0.15798 0.69929 -2.37666 -2.31564 0.54883 0.45392 0.09476 0.40212 0.21752 -0.99426 0.92437 0.76460 -0.50000 1.01871 0.10413 0.39619 1.14767 -0.83068 Las gráficas de los residuos normales son las siguientes:
Residual Percent Frequency Residual Percent 200 100 0 -100 -200 99 90 50
10 1 2600 2400 2200 2000 1800 100
0 -100 -200 Residual 100 50 0 -50 -100 -150 -200 6.0 4.5 3.0 1.5 0.0 Observation Order 20 18 16 14 12 10 8 6 4 2 100
0
-100 -200 Normal Probability Plot of the Residuals Residuals Versus the Fitted Values Residual Histogram of the Residuals Fitted Value Residuals Versus the Order of the Data Residual Plots for Y Standardized Residual 3 2 1 0 -1 -2 -3 1 Tomado los residuos estandarizados vs fits se tiene:
Normal Probability Plot of the Residuals (response is Y) 99
95 90 80 70 60 50 40 30 20 10 5
Standardized Residual Deleted Residual 2600 2500 2400 2300 2200 2100 2000 1900 1800 1700 1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5 Residuals Versus the Fitted Values (response is Y) Fitted Value 2600 2500 2400 2300 2200 2100 2000 1900 1800 1700 Fitted Value
Y para los residuos estudentizados se tiene:
Residuals Versus the Fitted Values (response is Y)
1
0
-1
-2
-3 Como se puede observar los puntos 5 y 6 exceden el límite de dos sigmas.
2.2.3 Gráfica de residuos vs Yestimada La gráfica de residuos normales, estandarizados o estudentizados vs los valores estimados de Y es útil para identificar no adecuaciones del modelo.
Standardized Residual Standardized Residual 25 20 15 10 5 0 Patrones de variación de los residuos a) Aleatorio; b) Cono (aumenta la varianza); c) Rombo; d) No lineal
2.2.4 Gráfica de residuos vs Xi Los patrones generados a veces son similares a los de la figura anterior, por ejemplo para el caso del ejemplo 1.2, se tiene: En Minitab (Graphs seleccionar Residual vs Fits y Residuals vs Variables X) Residuals Versus X (response is Y)
1.0 0.5 0.0 -0.5 -1.0 -1.5 -2.0 -2.5 20 18 16 14 12 10 8 6 4 2 X
En este caso los residuos para los puntos 5 y 6 exceden de dos sigmas sin embargo no muestran indicios de violación del modelo.
2.2.5 Otras gráficas de residuos Se pueden obtener gráficas de los residuales vs el tiempo de ocurrencia u orden: Residuals Versus the Order of the Data (response is Y)
1.0 0.5 0.0 -0.5 -1.0 -1.5 -2.0 -2.5 Observation Order
En este caso se puede identificar si existe autocorrelación positiva o negativa de los residuos como sigue:
Residuos vs tiempo: Autocorrelación positiva – Autocorrelación negativa 2.2.6 Pruebas estadísticas en los residuos Las pruebas estadísticas en los residuos son menos prácticas que la observación de su comportamiento donde se obtiene más información.
2.3 DETECCIÓN Y TRATAMIENTO DE OUTLIERS Un Outilier es una observación extrema, donde el residuo es considerablemente grande, por decir con tres o cuatro desviaciones estándar de la media. Estos puntos no son puntos típicos de los datos y pueden ocasionar defectos severos en el modelo de regresión. Las gráficas de Y estimada vs residuos ya sea estandarizados o estudentizados permiten identificar Outliers (puntos aberrantes).
Los outliers deben ser investigados para ver si se puede hallar la razón de su comportamiento anormal (medición incorrecta, equipo dañado, error de anotación). Si se encuentra que se debe a un error se debe descartar de los datos. En otros casos donde se encuentra una razón se debe mantener en la estimación del modelo.
En general se espera que la ecuación de regresión encontrada sea insensible a algunos puntos particulares, para que sea un modelo robusto. Puede no ser aceptable que un pequeño porcentaje de los datos tenga un efecto significativo en el modelo. Con los datos del ejemplo 1.2 si omitimos los puntos 5 y 6 que indican Outliers y compramos nuevo modelo con el modelo anterior se tiene:
Con el modelo original: The regression equation is Y = 2628 – 37.2 X
Predictor Coef SE Coef T P Constant 2627.82 44.18 59.47 0.000 X -37.154 2.889 -12.86 0.000 S = 96.1061 R-Sq = 90.2% R-Sq(adj) = 89.6%
Y con el modelo donde se excluyen los puntos 5 y 6 se tiene: The regression equation is Y_1 = 2659 – 37.7 X_1
Predictor Coef SE Coef T P Constant 2658.97 30.53 87.08 0.000 X_1 -37.694 1.979 -19.05 0.000 S = 62.9653 R-Sq = 95.8% R-Sq(adj) = 95.5%
Percent Standardized Residual 3 2 1 0 -1 -2 -3 99
95 90 80 70 60 50 40 30 20 10 5 1 Normal Probability Plot of the Residuals (response is Y_1) 2600 2400 2200 2000 1800 1600 1.5 1.0 0.5
0.0 -0.5 -1.0 -1.5 -2.0 Standardized Residual
Residuals Versus the Fitted Values (response is Y_1) Fitted Value
Casi no hubo efecto en la estimación de los coeficientes de la regresión. La MSE se redujo mucho, se incrementó R^2 en 5% y se redujo en 30% el error estándar de ?1. En General a pesar de que los puntos 5 y 6 no afectan la estimación y aplicación del modelo, y el quitarlos mejoraría el error de estimación aunque no hay una razón de peso.
2.4 PRUEBA DE FALTA DE AJUSTE
Falta de ajuste y el error puro Se asume que se cumplen los requerimientos de normalidad, independencia y varianza constante y que sólo se tiene en duda si la relación entre las variables es de primer orden o sea una línea recta.
Para el cálculo del error puro se requiere hacer réplicas verdaderas, por ejemplo medir el coeficiente de inteligencia de dos personas con la misma estatura en vez de hacer dos mediciones repetidas de la misma persona, o realizar dos experimentos en diferente tiempo con la misma X y registrando el valor de la respuesta.
Suponiendo que se tienen m valores diferentes de Xj, con j=1,2….m, por tanto:
? ? u 1 (Y1u ?Y) ??Y ? ??Y1u ? SS.error.puro?? ?(Yju ?Yj)2 ne ??n j ?m ?(Y 1 Y11, Y12,…..,Y1n1 son n1 observaciones repetidas en X1; Y21, Y22,……,Y2n2son n2 observaciones repetidas en X2; ……….. Yju es la observación u-ésima (u=1,2,….,nj) en Xj; Ym1, Ym2,…..,Ymn1 son n observaciones repetidas en Xm.
La suma de cuadrados del error puro de las n1 observaciones en X1 es la suma de cuadrados interna de la Y1u con respecto a su media Y1, o sea: 2 2 2 n1 __ n1
u?1 1u 1 ? n1 ? n1? i?1 ? (2.5) Reuniendo las sumas internas de cuadrados de todos los lugares donde se tomaron réplicas se tiene el error puro total SS como: n1 __
u?1 m
j?1 (2.6) (2.7) Con grados de libertad:
m
j?1
Para el caso de nj= 2 se tiene: ju __ ?Y j)2 ? (Yj1 ?Yj2)2 2 2
u?1 (2.8) e El cuadrado medio del error puro es:
s2 ? SS.error.puro/ne (2.9) De esta forma la suma de cuadrados del error residual se divide en suma de cuadrados de falta de ajuste y error puro. (2.10)
(2.11) Donde SSE(residual) ? SSPE(error.puro)?SSLOF( falta.de.ajsute)
El residuo (ij-ésimo) es:
__ ^ __ ^ Yij ?Y i ? (Yij ?Y i)?(Yi ?Yi) __ Y i es el promedio de las ni observaciones en Xi. La suma de cuadrados del error puro es:
SSPE ??? (Yij ?Y i)2 i?1 j?1 ^ SSLOF ??ni(Y i?Y i)2 (2.12)
(2.13) m ni __
i
La suma de cuadrados de la falta de ajuste:
m __
i?1
El estadístico Fo para la falta de ajuste es: MSLOF MSPE ? SSLOF /(m?2 ) SSPE /n?m) F0 ? (2.14) El valor esperado de MSPE ?? 2 (2.15) Ejemplo 2.4.1: Tomando un nuevo grupo de datos en los cuales hay algunas réplicas por ejemplo se tomaron 2 valores para X = 1.3, 2.0, 3.3, 3.7, 4.7 y 6.0 y se tomaron 3 valores para X =4,5.3. La tabla de datos completa se muestra a continuación: La recta de ajuste estimada con Minitab es la siguiente:
Regression Analysis: Y versus X (Pure Error)
The regression equation is
Página siguiente |