Adecuación del modelo de regresión lineal (página 2)
Enviado por Ing.+ Licdo. Yunior Andrés Castillo Silverio
Y = 1.43 + 0.316 X
Predictor Coef SE Coef T P Constant 1.4256 0.5127 2.78 0.011 X 0.3158 0.1149 2.75 0.012 De la fórmulas anteriores se tiene: Para X = 1.3 de la ecuación 2.8 se tiene:
2 los demás, obteniéndose:
Para el caso de n1>2 se aplica la fórmula normal (2.5), para el caso de X = 4.0 se tiene:
2 2 2 2
Lo mismo se aplica al X = 5.3.
Por tanto la tabla de datos queda como sigue: Nivel de X 1.30.125 1.4 Sserror.puro
0.845 gl 1 1 3.32.00 1 3.72.000 4.70.845 6.00.020 4.00.240 5.30.980 Totales 7.055 1 1 1 2 2 10
La suma de cuadrados del error por falta de ajuste se obtiene restando de la suma de cuadrados del error residual, la suma de cuadrados del error puro. Ahora se calcula F contra el error puro medio cuadrático.
De esta forma se obtiene la tabla de ANOVA siguiente, utilizando Minitab:
Analysis of Variance Source DF SS MS F P Regression 1 5.4992 5.4992 7.56 0.012 sign. at 0.05% Residual Error 21 15.2782 0.7275 Lack of Fit 11 8.2232 0.7476 1.06 0.468 not significant Pure Error 10 7.0550 0.7055 Total correected 22 20.7774
5 rows with no replicates
En resumen, los pasos a tomar cuando se tienen observaciones replicadas son los siguientes: 1. Obtener la recta de ajuste del modelo, con ANOVA incluyendo valores para la regresión y el error residual. Todavía no hacer la prueba F. 2. Determinar la suma de cuadrados del error puro y dividir la suma de cuadrados del error residual en suma de cuadrados de falta de ajuste y de error puro. 3. Realizar la prueba F para la falta de ajuste. Si no es significativo, no hay razón para dudar de la adecuación del modelo, ir a paso 4. De otra forma parar el modelo y buscar otras formas de mejorar el modelo en base a la observación del comportamiento de los residuos. 4. Examinar los residuos para identificar si no se violan algunas reglas, si todo está bien, usar el 2 2 2
Con Minitab se obtuvo S = 0.8530 R-Sq = 26.5% R-Sq(adj) = 23.0% 2 SST.corregido ?SSError.puro SST.corregido (2.16) MaxR2 ?
o sea: ? 0.6604 20.777?7.055 20.777 MaxR2 ? De esta forma ya tiene un poco más de sentido el ajuste.
Los datos de los residuos calculados con Minitab se muestran a continuación:
R denotes an observation with a large standardized residual Ver gráficas en páginas siguientes anexas. Residuals vs. the fitted values for Y
Ejemplo 2.4.2 Se presenta otro ejemplo corrido en Minitab (Montgomery, p. 88)con Y = Viscocidad, X = temperatura:
Welcome to Minitab, press F1 for help. Note que se tienen varias réplicas en X = 1.0, 3.3, 4.0, 5.6 y 6.
EL error puro se calculó como sigue: Nivel de X __ ?Y i)2 ?j(Yij Grados de libertad ________________________________________________. 1.0 3.3 4.0 5.6 6.0 Total 1.1858 1.0805 11.2467 1.4341 0.6161 15.5632 1 1 2 2 1 . 7 El error de falta de ajuste se calculó con la fórmula:
SSLOF ? SSE ?SSPE
SSLOF ?252.9039?15.5632 ?237.3407
Regression Analysis: Y versus X
The regression equation is Y = 13.2 + 2.13 X Predictor Coef SE Coef T P
d ??(eu ?eu?1)2 /?eu Constant 13.214 2.665 4.96 0.000 X 2.1304 0.5645 3.77 0.002 S = 4.084 R-Sq = 48.7% R-Sq(adj) = 45.3% A sus los cambios Analysis of Variance
Source DF SS MS F P Regression 1 237.48 237.48 14.24 0.002 Residual Error 15 250.13 16.68 Lack of Fit 8 234.57 29.32 13.19 0.001 Significativa Pure Error 7 15.56 2.22 Total 16 487.61
5 rows with no replicates
CONCLUSIÓN: Como F0 = 13.19 es mayor que F.25, 8,7 = 1.70, se rechaza la hipótesis que el modelo encontrado describe los datos adecuadamente.
La pueba de DURBIN-WATSON La prueba checa si los residuos tienen una dependencia secuencial en la cual cada uno de los errores (residuos) está correlacionado con los anteriores y los posteriores. La prueba se enfoca a las diferencias entre residuos sucesivos como sigue, usando el estadístico de Durbin – Watson: 2 n n
u?2 u?2 (2.17) Donde:
1. 0 ? d ? 4 2.- Si los residuos sucesivos están correlacionados positivamente en serie, d será casi 0. 2. SI los residuos sucesivos están correlacionados negativamente, d será cercano a 4, de tal forma que 4-d será casi 0. 3. La distribución de d es simétrica alrededor de 2. La prueba se realiza como sigue: comparar d o 4-d, la que esté más cercano a cero con dL y dU en la tabla mostrada abajo, si d< dL se concluye que existe una correlación positiva probable; si d>dU se concluye que no hay correlación (se aplica el mismo criterio para 4-d). Si d o 4-d se encuentran entre dL y dU, la prueba es inconclusa. Si se identifica algún tipo de correlación, el modelo debe ser reexaminado. Puntos de significancia de dL y dU para una línea recta de ajuste. 1% 2.5% 5% n dL dU dL dU dL dU 15 0.811.07 20 0.951.15 25 1.051.21 30 1.131.26 40 1.251.34 50 1.321.40 70 1.431.49 0.95 1.08 1.18 1.25 1.35 1.42 1.51 1.23 1.28 1.34 1.38 1.45 1.50 1.57 1.08 1.20 1.29 1.35 1.44 1.50 1.58 1.36 1.41 1.45 1.49 1.54 1.59 1.64 1.59 1.63 100 150 200 1.56 1.61 1.66 1.56 1.64 1.68 1.65 1.72 1.76 1.69 1.75 1.78
Y ? ?0X ?1 Outliers Un outlier entre los residuos es aquel que es mucho más grande que el resto en valor absoluto, encontrándose a 3, 4 o más desviaciones estándar de la media de los residuos. El outlier indica un punto que no es común al resto de los datos y debe ser examinado con cuidado. Algunas veces proporciona información vital sobre el proceso.
2.5 TRANSFORMACIONES A UNA LINEA RECTA A veces se detecta no linealidades a través de la prueba de falta de ajuste descrita en la sección anterior o de diagramas de dispersión y gráficas de los residuos. En algunos casos los datos se pueden transformar para que representen una relación más lineal.
1 funciones no lineales, transformaciones y formas lineales resultantes se muestran en la tabla 2.1. Dependiendo de la curvatura del comportamiento de la relación entre las variables X y Y, se puede localizar una gráfica parecida en la figura 3.13 y usar su transformación.
Tabla 2.1 Funciones linealizables y su forma lineal correspondiente. Figura 2.13 Función a,b Transformación Y'? logY,X'? log X Forma lineal Y'?log?0 ??1X' c,d e,f Y ? ?0e?1X Y ? ?0 ??1logX Y'? logY X'? log X Y'?ln?0 ??1X Y'? ?0 ??1X' g,h X ?0X ??1 Y ? 1 X 1 Y ,X'? Y'? Y'? ?0 ??1X' Por ejemplo la función:
Y ? ?0e?1X? (2.19) Puede ser transformada de acuerdo a la tabla 2.1 en:
lnY ?ln?0 ??1X ?ln? ó
Y'? ?0'??1X ??'
Se requiere que la transformada del término de error sea normal e independientemente distribuida con 2
Varios tipos de transformaciones recíprocas pueden ser útiles. Por ejemplo:
? 1 ? ? X ?
Puede ser linealizada usando la transformación recíproca X = 1/X, quedando como: 1 Montgomerey, Douglas C., Introduction to Linear Regression Analysis, John Wiley and Sons, Nueva York, 1992, pp. 90-91
Y ? ?0 ??1X'??
Ejemplo 2.3 Un investigador desea determinar la relación entre la salida de Corriente Directa (Y) de un generador de molino de viento y la velocidad del viento (X), para ello colecta 25 pares de datos para ambas variables, utilizando el Minitab para su proceso. Los datos colectados son los siguientes: R denotes an observation with a large standardized residual
Durbin-Watson statistic = 1.21
El valor del estadístico indica que no podemos llegar a conclusiones:
Regression Analysis: Y versus X The regression equation is Y = 0.131 + 0.241 X
Predictor Coef SE Coef T P Constant 0.1309 0.1260 1.04 0.310 X 0.24115 0.01905 12.66 0.000 S = 0.2361 R-Sq = 87.4% R-Sq(adj) = 86.9%
Y Residual 11 10 9 8 7 6 5 4 3 2 S R-Sq R-Sq(adj) 0.237095 87.3% 86.8% Ajustando el modelo con una recta se tiene:
Fitted Line Plot Y = 0.1269 +0.2412 X
2.5
2.0
1.5
1.0
0.5
0.0 2.5 2.0 1.5 1.0 0.5 0.4
0.2
0.0
-0.2
-0.4
-0.6 X
Residuals Versus the Fitted Values (response is Y) Fitted Value
The regression equation is Y = 0.1269 + 0.2412 X
S = 0.237095 R-Sq = 87.3% R-Sq(adj) = 86.8%
Analysis of Variance Source DF SS MS F P Regression 1 8.9183 8.91827 158.65 0.000 Error 23 1.2929 0.05621 Total 24 10.2112
Y Residual 11 10 9 8 7 6 5 4 3 2 2.5
2.0
1.5
1.0
0.5
0.0 S R-Sq R-Sq(adj) 0.127171 96.5% 96.2% El tratar de ajustar los datos, una recta no fue la mejor opción, por lo que se intenta un modelo cuadrático, el cual se muestra a continuación. Fitted Line Plot Y = – 1.166 +0.7236 X – 0.03808 X**2 2.5 2.0 1.5 1.0 0.5 0.2
0.1
0.0
-0.1
-0.2
-0.3 X
Residuals Versus the Fitted Values (response is Y) Fitted Value
Polynomial Regression Analysis: Y versus X The regression equation is Y = – 1.166 + 0.7236 X – 0.03808 X**2
S = 0.127171 R-Sq = 96.5% R-Sq(adj) = 96.2%
Analysis of Variance Source DF SS MS F P Regression 2 9.8554 4.92770 304.70 0.000 Error 22 0.3558 0.01617 Total 24 10.2112
Sequential Analysis of Variance Source DF SS F P Linear 1 8.91827 158.65 0.000 Quadratic 1 0.93713 57.95 0.000
A pesar de que la R es adecuada, los residuos muestran un comportamiento anormal, por lo que 2 será necesario transformar la variable X. Se observa que los residuos no siguen una distribución normal por lo que es necesario transformar la variable regresora: Transformando la variable X = 1/X se tiene, utilizando Minitab:
Y El modelo queda como: 0.40 0.35 0.30 0.25 0.20 0.15 0.10 2.5
2.0 1.5
1.0
0.5
0.0 S R-Sq R-Sq(adj) 97.7% Regression 95% CI 95% PI 0.0993273 97.8% Fitted Line Plot Y = 2.987 – 7.005 1/X 1/X
Regression Analysis: Y versus 1/X The regression equation is Y = 2.99 – 7.00 1/X
Predictor Coef SE Coef T P Constant 2.98664 0.04763 62.71 0.000 1/X -7.0046 0.2202 -31.81 0.000 S = 0.0993273 R-Sq = 97.8% R-Sq(adj) = 97.7%
Analysis of Variance Source DF SS MS F P Regression 1 9.9843 9.9843 1012.00 0.000 Residual Error 23 0.2269 0.0099 Total 24 10.2112
Unusual Observations
Obs 1/X Y Fit SE Fit Residual St Resid 20 0.182 1.5010 1.7131 0.0201 -0.2121 25 0.400 0.1230 0.1848 0.0490 -0.0618 -2.18R -0.72 X R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence.
Durbin-Watson statistic = 1.52151
Como se observa ahora los residuos muestran un comportamiento normal, indicando que el modelo es adecuado.
Percent Residual Relación de ? a E(Y) ? ?? ?E(Y)?1?E(Y)?…………….Y'? sin Y 0.2 0.1 0.0 -0.1 -0.2 99
95 90 80 70 60 50 40 30 20 10 5 1 Normal Probability Plot of the Residuals (response is Y) Si la distribución de Y es de Poisson, podemos relacionar Y'? Y contra X ya que la varianza de Y es independiente de la media. Si la variable de respuesta Y es una proporción con valores entre [0,1] y la gráfica de residuos tiene el patrón de doble cresta, entonces se usa la transformación Y'? sin?1 Y .
Otras transformaciones se muestran abajo en la tabla 2.2:
Tabla 2.2 Relaciones para transformar la varianza 2 Transformación Datos de Poisson Proporciones binomiales ? 2 ?? ?constante…………………………Y'?Y ? 2 ?? ?E(Y)……………………………Y'? Y 2 ?1 ? 2 ?? ??E(Y)?2…………………………Y'?ln(Y) ? 2 ?? ??E(Y)?3………………………Y'?Y ?1/2 La magnitud de la transformación, depende del grado de curvatura que induce. Fitted Value
2.5 TRANSFORMACIONES PARA ESTABILIZAR LA VARIANZA La suposición de varianza constante es un requerimiento básico del análisis de regresión, una razón común de violación a de este supuesto es cuando la variable de respuesta Y sigue una distribución de probabilidad en la cual la varianza esta relacionada con la media. Para estos casos se utiliza transformaciones estabilizadoras de la varianza. 2.5 2.0 1.5 1.0 0.5 0.0 0.15 0.10 0.05 0.00 -0.05 -0.10 -0.15 -0.20 -0.25 Residual
Residuals Versus the Fitted Values (response is Y)
La selección de la transformación se hace en base a la experiencia o de forma empírica. A continuación se presenta un ejemplo para este análisis.
Ejemplo 2.4 Se hizo un estudio entre la demanda (Y) y la energía eléctrica utilizada (X) durante un cierto periodo de tiempo, procesando los datos con Minitab se obtuvo lo siguiente: The regression equation is
Y = – 0.7038 + 0.003464 X
S = 1.46163 R-Sq = 66.4% R-Sq(adj) = 64.9%
Analysis of Variance Source DF SS MS F P Regression 1 97.094 97.0943 45.45 0.000 Error 23 49.136 2.1364 Total 24 146.231
Unusual Observations Obs X Y Fit SE Fit Residual St Resid 8 2189 9.500 6.880 0.651 2.620 2.00R
R denotes an observation with a large standardized residual.
Y Percent Standardized Residual 2000 1500 1000 500 S R-Sq R-Sq(adj) 1.46163 66.4% 64.9% Durbin-Watson statistic = 1.49454
Fitted Line: Y versus X
Fitted Line Plot Y = – 0.7038 +0.003464 X 10
8
6
4
2
0 3 2 1 0 -1 -2 -3 99
95 90 80 70 60 50 40 30 20 10 5 1 X
Normal Probability Plot of the Residuals (response is Y) Fitted Value 7 6 5 4 3 2 1 0 2
1
0
-1
-2 Standardized Residual
Residuals Versus the Fitted Values (response is Y)
Notar que y es la cuenta de kilowatts utilizados por un cliente en cierta hora, se observa que la varianza aumenta conforme aumenta la media de los datos indicando que sigue el modelo de Poisson, por tanto se puede transformar con la raiz cuadrada de Y. como sigue: Regression Analysis: Raiz(Y) versus X
The regression equation is Raiz(Y) = 0.4717 + 0.001027 X
S = 0.454426 R-Sq = 64.3% R-Sq(adj) = 62.7%
Durbin-Watson statistic = 1.65249
Raiz(Y) Percent Residual 2000 1500 1000 500 3.0
2.5
2.0
1.5
1.0
0.5 S R-Sq R-Sq(adj) 0.454426 64.3% 62.7% Fitted Line Plot Raiz(Y) = 0.4717 +0.001027 X 1.0 0.5 0.0 -0.5 -1.0 99
95 90 80 70 60 50 40 30 20 10 5 1 X
Normal Probability Plot of the Residuals (response is Raiz(Y)) Fitted Value 3.0 2.5 2.0 1.5 1.0 1.0
0.5
0.0
-0.5 Residual
Residuals Versus the Fitted Values (response is Raiz(Y))
S(?) ???i2 ??'? ? (Y ? X?)'(Y ? X?) Se observa una mejor distribución normal de los residuos por lo que el modelo es adecuado. A continuación se muestra el análisis de varianza para el modelo:
Analysis of Variance
Source DF SS MS F P Regression 1 8.5401 8.54008 41.36 0.000 Error 23 4.7496 0.20650 Total 24 13.2897
3. REGRESIÓN LINEAL MÚLTIPLE
3.1 Modelos de Regresión Múltiple
Asumiendo que N observaciones de la respuesta se puedan expresar por medio de un modelo de primer orden Yu ? ?0 ??1Xu1 ??2Xu2 ?…….??kXuk ??u (3.1) En la ecuación 3.1 Yu denota la respuesta observada en el intento u; Xui representa el nivel del factor i en el intento u; las betas son parámetros desconocidos y ?u representa el error aleatorio en Yu. Se asume que los errores ?u tienen las características siguientes:
2 2. Son estadísticamente independientes. 3. Están distribuidos en forma normal.
3.2 Estimación de los parámetros del modelo El método de mínimos cuadrados selecciona como estimados para los parámetros desconocidos beta, los valores b0, b1, …., bk respectivamente, los cuales minimizan la cantidad:
N
u?1
Y son las soluciones a un conjunto de (k +1) ecuaciones normales.
Sobre N observaciones el modelo de primer orden puede expresarse en forma matricial como: (3.2) Y = X ? + ? = [1 : D] ? + ?
Y es un vector N x 1. X es una matriz de orden N x (k + 1), donde la primera columna es de 1s. ? es un vector de orden (k + 1) x 1. ? es un vector de orden N x 1. D es la matriz de Xij con i = 1, 2, …, N; j = 1, 2, ……, k
Deseamos encontrar el vector de estimadores de mínimos cuadrados b que minimicen: n
i?1 Que puede ser expresada como: S(?) ?Y'Y ??'X'Y ?Y'X? ??'X'X?
Y ? Xb ? X(X'X) X'Y ? Hy Var(b) = C = (XX) ? La covarianza del elemento bi y bj de b esCovar(cij) ? cij? . Y(x) ? x' p b Var(Y(x)) ?Var(xpb) ? x' p (X'X)?1xp? 2 Como ?'X'Y es una matriz 1×1 o un escalar y su transpuesta (?'X'Y)'?Y'X? es el mismo escalar, se tiene: (3.3) S(?) ?Y'Y ?2?'X'Y ??'X'X'?
Los estimadores de mínimos cuadrados deben satisfacer: ? ?2X'Y ?2X'Xb ? 0 b ?S ?? (3.4) Que se simplifica a las ecuaciones normales de mínimos cuadrados:
XX b = X Y
Los estimadores de mínimos cuadrados b de los elementos ? son: b = (XX) -1 XY (3.5) El vector de valores ajustados Y ? Xbse puede expresar como: ?1 (3.5) Donde la matriz H [n x n] se denomina la matriz sombrero ya que mapea el vector de valores observados dentro del vector de valores ajustados o predichos. Como principales características de los estimadores b se tienen:
La matriz de varianza y covarianza de el vector de estimados b es: -1 2 (3.6) El elemento (ii) de esta matriz cii? 2 ?Var(bi) es la varianza del elemento i de b. El error estándar de bi es la raíz cuadrada positiva de la varianza de bi o sea:
se.bi ? cii? 2 (3.7) 2 (3.8) Si los errores están normalmente distribuidos, entonces b se dice que está distribuido como:
b ? N(?,(X'X)?1? 2)
Sea xp un vector (1 x p) vector cuyos elementos corresponden a una fila de la matriz X, p = k + 1, entonces en la región experimental el valor de predicción de la respuesta es: ^
Una medida de la precisión de la predicción Y(X) se puede expresar como:
^ (3.9)
(3.10)
ru ?Yu ?Y(xu),u ?1,2,…,N RESIDUOS Los residuos se definen como la diferencia entre los valores reales observados y los valores predichos para estos valores de respuesta usando el modelo de ajuste y predicción, o sea: ^
Si se obtienen valores para los N intentos entonces en forma matricial: r ?Y ? Xb ?Y ?HY ?(1?H)Y (3.11)
(3.12) los residuos tienen las propiedades siguientes:
1. 1r = 0, donde 1 es un vector (1 x n) de 1s. 2. Y(X)'r ? 0 3. Xr = 0
ESTIMACIÓN DE ? Para un modelo con p parámetros y teniendo N observaciones (N > p), la varianza se estima como sigue:
La suma de cuadros de los residuos es:
n
i?1 Como e = Y X b, se tiene:
SSE ? (Y ? Xb)'(Y ? Xb) ?Y'Y ?b'X'Y ?Y'Xb?b'X'Xb ?Y'Y ?2b'X'Y ?b'X'Xb (3.13)
Como XXb = XY, se transforma en: SSE ?Y'Y ?b'X'Y (3.14) La suma residual de cuadrados tiene n-p grados de libertad asociado con el ya que se estiman p parámetros en el modelo de regresión. El cuadrado medio de los residuos es: SSE N ? p s2 ? MSE ? (3.15) 3.3 Intervalos de confianza para los coeficientes de la regresión Asumiendo que los errores son independientes y distribuidos normalmente con media cero y 2 distribuidas. Cada uno de los estadísticos: ,…j ? 0,1,…,k bj ? ? j S 2C jj (3.16) 2 ecuación (3.15). Por tanto un intervalo de confianza 100(1 – ? )% para el coeficiente de regresión ?j, para j = 0, 1, …., k es: bj ?t? /2,n?pse(bj) ? ? j ?bj ?t? /2,n?pse(b j) (3.17)
Donde se(bj) es el error estándar del coeficiente de regresión bj. se(bj) ? S 2C jj (3.18) Siendo Cjj el j-ésimo elemento de la matriz (XX )-1 . ? ? 3.3.1 Intervalos de confianza para la respuesta media en un punto en particular Se puede construir un intervalo de confianza en la respuesta media de un punto en particular, tal como X01, X02, X03,…….., X0K. Definiendo el vector X0 como: ?1 ? ? ? 01 ? X 0 ? ?X 02 ? ? ? ?….. ? ?X 0K ?
El valor ajustado en este punto es: ?? Y0 ? X'0b
Con varianza:
Var(Y0) ? S2X'0 (X'X)?1X0
Por tanto el intervalo de confianza para el 100( 1 – ? ) % es:
Y0 ?t? /2,n?p S2X'0 (X'X)?1X0 ?Y0 ?Y0 ?t? /2,n?p S2X'0 (X'X)?1X0 (3.19)
(3.20)
(3.21) 3.4 Prueba de Hipótesis en Regresión múltiple Entre las pruebas importantes a realizar se encuentra la prueba de siginificancia de la regresión, la prueba de coeficientes individuales de la regresión y otras pruebas especiales. A continuación se analiza cada una de ellas.
3.6.1 Prueba de significancia para la regresión La prueba de significancia de la regresión es probar para determinar si hay una relación lineal entre la respuesta Y y cualquiera de las variables regresoras Xis, la hipótesis apropiada es: H0 :?1 ? ?2 ?….? ?k ?0 (3.22) H0 😕 j ?0…….para.al.menos.una.j
El rechazo de H0 implica que al menos alguno de los regresores contribuye significativamente al modelo. El método es una generalización del utilizado en la regresión lineal. La suma total de cuadrados Syy se divide en suma de cuadrados debidos a la regresión y la suma de cuadrados de los residuos, o sea:
SYY ? SST ? SSR?SSE
Para la prueba de la hipótesis se utiliza el estadístico F0 como sigue:
SST ??(Yu ?Y)2 ^ SSR ??(Y(xu)?Y)2 con p (parámetros) 1 grados de libertad ^ SSE ??(Yu ?Y(xu))2 con (N-1) (p 1) grados de libertad MSR MSE ? SSR/k SSE/(n?k ?1) F0 ? con k = No. de variables regresoras (3.23) La suma de cuadrados totales es: N __
u?1 con N-1 grados de libertad (3.24) (3.25)
(3.26) La suma de cuadrados debidos a la regresión es:
N __
u?1
La suma de cuadrados del error o de los residuos es:
N
u?1
En forma matricial se tiene: (1'Y)2 N SST ?Y'Y ? (3.27) (1'Y)2 N SSR ? b'X'Y ? (3.28) (3.29) SSE ?Y'Y ?b'X'Y
La tabla de ANOVA para la significancia de la regresión queda como:
Fuente de variación SS df MS F0 . MSR MSE MSR/MSE . Regresión Residuos Total SSR SSE SST K n k-1 n 1 Para probar la hipótesis de existencia del modelo, se tiene:
H0 :?1 ? ?2 ?…? ?k ?0
Ha :??i ?0,i ?1,2,…,k
Se calcula el estadístico F0 como:
MSR MSE SSR/(p?1) SSE/(N ? p) ? F0 ? (3.30) Se compara el valor de F con el de tablas para F?,p-1,N-p el cual es la parte superior de la distribución F, si F calculada excede a F de tablas se infiere que la variación explicada por el modelo es significativa.
2 de la media Y explicada por el modelo de ajuste. Se expresa en porcentaje. SSR SST R2 ? (3.31) 3.4.2 Prueba de los coeficientes individuales de la regresión Con frecuencia estamos interesados en probar hipótesis sobre los coeficientes de regresión individuales. Por ejemplo el modelo podría ser más efectivo con la inclusión de regresores adicionales o con la eliminación de una o más variables regresoras presentes en el modelo.
Al agregar una variable al modelo, siempre incrementa la suma de cuadrados de la regresión y decrementa la suma de cuadrados de los residuos, sin embargo también incrementa la varianza de los valores estimados Yest., de tal forma que se debe tener cuidado en incluir sólo los regresores que mejor expliquen la respuesta. Por otra parte, al agregar un regresor no importante puede incrementar el cuadrado medio de los residuos, lo que decrementa la utilidad del modelo. La hipótesis para probar la significancia de cualquier coeficiente individual de la regresión ?j es: H0 😕 j ? 0 (3.32) H1 😕 j ? 0
Si no se rechaza H0, indica que el regresor Xj puede ser excluido del modelo. El estadístico de prueba para esta hipótesis es: bj se(bj) t0 ? (3.33) La hipótesis nula es rechazada si t0 ?t? /2,n?k?1. Esta es una prueba parcial o marginal de la contribución de Xj dados los otros regresores en el modelo.
3.4.3 Caso especial de columnas ortogonales en X Si dentro de la matriz X si las columnas de X1 son ortogonales a las columnas en X2, se tiene que X1X2 = X2 X1 = 0. Entonces los estimadores de mínimos cuadrados b1 y b2 no dependen si está o no está en el modelo alguno de los otros regresores, cumpliéndose: SSR(?2) ? SSR(?1)?SSR(?2) (3.34) 3
Y ? ?0 ??1X1 ??2X2 ??3X3 ??
Donde la matriz X es la siguiente:
??1,?1,?1,?1? ??1,?1,?1,?1? ??1,?1,?1,?1? ??1,?1,?1,?1? ??1,?1,?1,?1? ? ? ??1,?1,?1,?1? ? ? ??1,?1,?1,?1? ? ? ??1,?1,?1,?1? ? ? X ? En este caso, SSR(?j), j = 1, 2, 3, mide la contribución del regresor Xj al modelo, independientemente de cualquier otro regresor esté incluido en el modelo de ajuste.
Ejemplos: Ejemplo 3.1 Un embotellador está analizando las rutas de servicio de máquinas dispensadoras, está interesado en predecir la cantidad de tiempo requerida por el chofer para surtir las máquinas en el local (Y). La actividad de servicio incluye llenar la máquina con refrescos y un mantenimiento menor. Se tienen como variables el número de envases con que llena la máquina (X1) y la distancia que tiene que caminar (X2). Se colectaron los datos siguientes, y se procesaron con el paquete Minitab:
De manera matricial: X La transpuesta de X es (Copiar con pegado especial Transponer): X' Con la función de Excel de multiplicación de matrices MMULT : Seleccionar el rango de celdas de resultados y al final teclear (Ctrl-Shif-Enter). final) X'X
X'y 560 7,375 337,072
Cov(?) = ? (XX) El vector estimador de los coeficientes Betas es :
? ?(X'X)?1X'y
Con la función de Excel MINVERSA (X'X) -1 Matrix B = INV(X'X) X'Y
Betas est, 2.341231145 1.615907211 0.014384826
The regression equation is Y-TENT = 2.34 + 1.62 X1-ENV + 0.0144 X2-DIST
Estadísticas de la regresión ANÁLISIS DE VARIANZA Grados de Suma de Promedio de F Valor Coeficientes Error típico Estad. t Probab. Inferior 95% Superior 95% Inferior 95.0% Superior 95.0% Cálculo de la estimación de la varianza: 2 -1 Si C = (XX) -1
? = 2 2 Y_tiempo 16.68 13.5 11.5 19.75 12.03 24 14.88 29 13.75 15.35 18.11 19 8 9.5 17.83 35.1 79.24 17.9 21.5 52.32 40.33 18.75 21 19.83 10.75 La matriz yy es:
y'y 18,310.63 ? 2.3412 1.6159 0.0144 X'y 559.6 7375.44 337072 ?Xy 18,076.90 SSE = 233.73 2 =233.73/(25-3) =10.6239 SSE = yy – ? X y
2
Matrix Y'Y = 18310.6
Matrix b' = [ 2.34123 1.61591 0.01438 ]
Matrix b'X'Y = 18076.9
Matrix SSe = Y'Y – b'X'Y = 233.732 ?10.624 233.732 25?3 ? S 2 ? SSE N ? p Cálculo del error estándar de los coeficientes y del intervalo de confianza para ? = 0.05
De ecuación 3.17 se tiene: se(bj) ? S 2C jj )-1 . Siendo Cjj el j-ésimo elemento de la matriz (XX
-1 M8 = (X'X) , , b1 ?t.02522se(b1)? ?1 ?b1 ?t.02522se(b1)
1.61591?(2.074) (10.6239)(0.00274378) ? ?1 ?1.6191?(2.074)(0.17073)
?8 ? Por tanto el intervalo de confianza para el 95% es:
1.26181 ? ?1 ? 1.97001
Cálculo del intervalo de confianza para la respuesta media El embotellador desea construir un intervalo de confianza sobre el tiempo medio de entrega para un local requiriendo X1 = 8 envases y cuya distancia es X2 = 275 pies. Por tanto: ? ? ?1 ? ? ? ?275? X 0 ? ? ? El valor de respuesta estimada por la ecuación de ajuste es:
?2.34123? ? ? ?0.01438? La varianza de Y0 es estimada por (tomando M8=inv(XX) anterior): ? ? ?1 ? 2 ?1 ? ?275?
Por tanto el intervalo al 95% de nivel de confianza es:
19.22?2.074 0.56794 ?Y0 ?19.22?2.074 0.56794
Que se reduce a:
17.66 ? Y0 ? 20.78
Analysis of Variance De ecuaciones 3.26 a 3.29 SST = 18,310.629 –
SSR = 18,076.930 – (559.6)2 25 (559.6)2 25 = 5784.5426
= 5,550.8166 SSE = SST SSR = 233.7260 2775.4083 10.6239 ? 261.24 ? MSR MSE F0 ? F0.05,2,22 ? 3.44
Como la F calculada es mayor que la F de tablas, se concluye que existe el modelo con alguno de sus coeficientes diferente de cero.
Con el paquete Minitab se obtuvo lo siguiente: Regression Analysis: Y_tiempo versus X1_envases, X2_Distancia
The regression equation is Y_tiempo = 2.34 + 1.62 X1_envases + 0.0144 X2_Distancia Predictor Coef SE Coef T P Constant 2.341 1.097 2.13 0.044 X1_envases 1.6159 0.1707 9.46 0.000 X2_Distancia 0.014385 0.003613 3.98 0.001
S = 3.25947 R-Sq = 96.0% R-Sq(adj) = 95.6%
Analysis of Variance Source DF SS MS F P Regression 2 5550.8 2775.4 261.24 0.000 Residual Error 22 233.7 10.6 Total 24 5784.5
Source DF Seq SS X1_envases 1 5382.4 X2_Distancia 1 168.4
Unusual Observations
Obs X1_envases Y_tiempo Fit SE Fit Residual St Resid 9 30.0 79.240 71.820 2.301 7.420 3.21RX 22 26.0 52.320 56.007 2.040 -3.687 -1.45 X R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence.
Predicted Values for New Observations
New Obs Fit SE Fit 95% CI 95% PI 1 19.224 0.757 ( 17.654, 20.795) (12.285, 26.164)
Values of Predictors for New Observations
New Obs X1_envases X2_Distancia 1 8.00 275
Percent S C22 4 3 2 1 0 -1 -2 -3 99
95 90 80 70 60 50 40 30 20 10 5 1 Normal Probability Plot of the Residuals (response is Y_tiempo) Standardized Residual
Prueba de la significancia de los coeficientes particulares Probando la contribución del regresor X2 (distancia) dado que la variable regresora de casos está en el modelo. Las hipótesis son:
H0 :?2 ?0 H1 :?2 ? 0
-1 que el estadístico t es: 0.01438 (10.6239)(0.00000123) ? 3.98 ? b2 2 t0 ? Como , t0.02522 ? 2.074, se rechaza la hipótesis H0, concluyendo que el regresor de distancia X2 (distancia), contribuye significativamente al modelo dado que casos X1 también está en el modelo.
3.5 Predicción de nuevas observaciones El modelo de regresión puede ser usado para predecir observaciones futuras en y correspondientes a valores particulares en las variables regresoras, por ejemplo X01, X02, .., X0k. Si x'0 ?[1,×01,x02,x013,…….,x01k ] Entonces una observación futura y0 en este punto es: y0 ? x'0 ? Un intervalo de de predicción con un nivel de confianza del 100(1-alfa) porciento para una observación futura es: y0 ?t? /2,n?p ? 2(1? x'0 (X'X)?1×0 ? y0 ? y0 ?t? /2,n?p ? 2(1? x'0 (X'X)?1×0 Es una generalización del modelo de regresión lineal simple. Para el caso del ejemplo del embotellador: El embotellador desea construir un intervalo de predicción sobre el tiempo de entrega para un local requiriendo X1 = 8 envases y cuya distancia es X2 = 275 pies. Por tanto:
?8 ? ? ? ?1 ? ? ? ?275? X 0 ? Xo = [1, 8, 275] ? ? El valor de respuesta estimada por la ecuación de ajuste es:
?2.34123? Y0 ? X'0 b ??1, 8, 275? ?1.61591? ?19.22minutos ?0.01438?
X'0 (X'X)?1X0 ? 0.05346
Por tanto el intervalo de predicción al 95% de nivel de confianza es:
19.22?2.074 10.6239(1?0.05346) ?Y0 ?19.22?2.074 10.6239(1?0.05346) Que se reduce al intervalo de predicción de: 12.28 ? Y0 ? 26.16
3.6 Extrapolación oculta AL predecir la respuesta promedio en un punto X0, se debe tener cuidado de no extrapolar más allá de la región que contiene las observaciones originales, ya que el ajuste puede no ser adecuado en esas regiones.
Para un procedimiento formal, se define el conjunto convexo más pequeño que contiene todos los n puntos originales (Xi1, Xi2, .., Xik), i=1, 2, 3, .,n, como la variable regresora envolvente o cáscara (Regressor Variable Hull RVH). Si un punto X0 = [X01, X02, , X0k ] se encuentra fuera de la variable RHV entonces se requiere extrapolación. El lugar de ese punto en relación con la RVH se refleja mediante: -1
Los puntos h00 > hmax están fuera del elipsoide que encierra la RVH y son puntos de extrapolación. -1 extrapolación oculta. En general el punto que tiene el mayor valor de hii o hmax se encuentra en la frontera de la RVH. El conjunto de puntos X que satisfacen el modelo:
-1 es un elipsoide que engloba todos los puntos dentro de la variable RVH. Para el caso del ejemplo del embotellador se tiene: x Etc.. (X'X) -1 X1(XX) -1
primero – 0.0352184 0.0120421 0.0003 Segundo – 0.0814614 0.0067458 4E-05 -1
La tabla completa se muestra a continuación: hmax Los puntos para los cuales hoo sea mayor a hmax, se encuentran fuera del elipsoide, generalmente entre menor sea el valor de hoo es más probable que se encuentre en el elipsoide.
En la tabla la observación 9 tiene el valor mayor de hii. Como el problema solo tiene dos regresores se puede examinar en un diagrama de dispersión como sigue:
X1_envases 1600 1400 1200 1000 800 600 400 200 0 30
25
20
15
10
5
0 Scatterplot of X1_envases vs X2_Distancia X2_Distancia
Se confirma que el punto 9 es el mayor valor de hii en la frontera de la RHV. Ahora supongamos que se desea considerar la predicción o estimación para los puntos siguientes: Todos los puntos se encuentran dentro del rango de los regresores X1 y X2. El punto a es de interpolación puesto que hoo < = hmax (0.05346 < 0.49829) todos los demás son puntos de extrapolación ya que exceden a hmax, lo que se confirma en la gráfica de dispersión.
Inferencia simultanea en la regresión múltiple Indica que se pueden hacer inferencias en forma simultanea
3.6 Evaluación de la adecuación del modelo Como se comentó anteriormente, los residuos ei del modelo de regresión múltiple, juegan un papel importante en la evaluación de la adecuación del modelo, de forma similar que en la regresión lineal simple. Es conveniente graficar los residuos siguientes:
1. Residuos en papel de probabilidad normal. 2. Residuos contra cada uno de los regresores Xs. 3. Residuos contra cada Yi,i ?1,2,…,k 4. Residuos en secuencia de tiempo ( si se conoce)
Estas gráficas se usan para identificar comportamientos anormales, outliers, varianza desigual, y la especificación funcional equivocada para un regresor. Se pueden graficar los residuos sin escalamiento o con un escalamiento apropiado.
Existen algunas técnicas adicionales de análisis de residuos útiles en el análisis de la regresión múltiple, como se describen a continuación.
Gráficas de residuos contra regresores omitidos en el modelo Estas gráficas podrían revelar cualquier dependencia de la variable de respuesta Y contra los factores omitidos, se esta forma se puede analizar si su incorporación mejora la explicación del modelo.
Gráficas de residuos parciales Estas gráficas están diseñadas para revelar en forma más precisa la relación entre los residuos y la variable regresora Xj. Se define el residuo parcial i-ésimo para el regresor Xj como sigue: * eij ? ei ?bjXij,i ?1,2,….,n (3.35) La gráfica de * eij contra X ij se denomina Gráfica de residuo parcial. Esta gráfica sirve para detectar Outliers y desigualdad de varianza, dado que muestra la relación entre Y y el regresor Xj después de haber removido el efecto de los otros regresores Xi (I< >j), es el equivalente de la gráfica de Y contra Xj en regresión múltiple.
Gráficas de regresión parcial Son gráficas de residuos de los cuales se ha removido la dependencia lineal de Y sobre todos los regresores diferentes de Xj, así como su dependencia lineal de otros regresores. En forma matricial se eY|X( j),eX j|X( j) pueden escribir estas cantidades como regresor j-ésimo removido.
del modelo general en forma matricial:
Y ? X? ?? ? X( j)? ? X j? j ?? donde X(j) es la matriz original X con el
(3.36) Premultiplicando por [ I ?H( j) ] y notando que (1?H( j))X( j) ?0 se tiene: eY|X( j) ? ? jeX j|X( j) ?(1?H( j))? (3.37) Algunos programas como SAS generan gráficas de regresión parcial. Gráficas de regresores Xi versus Xj.
Estas gráficas pueden ser útiles para el análisis de la relación entre los regresores y la disposición de los datos en el espacio X, donde pueden descubrirse puntos remotos del resto de los datos y que tienen influencia en el modelo. Si se encuentra que las variables regresoras están altamente correlacionadas, puede no ser necesario incluirlas ambas en el modelo. Si dos o más regresores están altamente correlacionados, se dice que hay multicolinealidad en los datos, esto distorsiona al modelo.
Xi
** ** * * ** * ** ** * ** ***
Xj Fig. 3.1 Gráfica de Xi versus Xj
Yi* ? i Yi0 ? i S jj ??(X ij ? X j)2 ?(Wij ?Wj)2 ?1 Método de escalamiento de residuos Es difícil hacer comparaciones directas entre los coeficientes de la regresión debido a que la magnitud de bj refleja las unidades de medición del regresor Xj. Por ejemplo: Y ?5? X1 ?1000X 2 (3.38) Donde Y esta medida en litros, X1 en mililitros y X2 en litros. Note que a pesar de que b2 es mucho mayor que b1, su efecto en la variable de respuesta es idéntico. Por lo anterior algunas veces es importante trabajar con regresores y variables de respuesta con escala cambiada, de tal forma que produzcan coeficientes de regresión sin dimensiones.
Existen dos técnicas para esto. La primera se denomina escala unitaria normal, X ij ? X j S j Zij ? Con i = 1, 2, ……., n; j = 1, 2, ………, k (3.39) Y ?Y Sy Con i = 1, 2, ……., n (3.40) De esta forma el modelo de regresión se transforma en: Yi* ?b1Zi1 ?b2Zi2 ?b3Zi3 ?………?bkZik ??i i = 1, 2, …….., n(3.41) (3.42) En este modelo b0 = 0 y el estimador de mínimos cuadrados para b es:
b ?(Z'Z)?1Z'Y *
El otro método de escalamiento es el escalamiento de longitud unitaria, X ij S jj Wij ? , i = 1, 2, ……, n; j = 1, 2, …….., k (3.43) __ Y ?Y SYY , i = 1, 2, ……….., n (3.44) __ (3.45) Esta última es la suma de cuadrados corregida para el regresor Xj. En este caso cada regresor Wj tiene media cero y longitud uno.
__ W j ? 0 (3.46) n
i?1
En términos de las variables de regresión, el modelo queda como:
?r 1,r ……r ? W'W ? ? 2k ? ?(X ui ? X i)(X uj ? X j) ?(X Yi0 ?b1Wi1 ?b2Wi2 ?……..?bkWik ??i, i = 1, 2, ……, n (3.47) (3.48) El vector de mínimos cuadrados de los coeficientes es:
b ?(W'W)?1W'Y 0
La matriz de correlación WW en la escala unitaria tiene la forma:
?1,r 12,r 13……r 1k?
12, 23 ?……………… ? ? ? ?r 1k,r2k,r3k….1?
Donde rijes la correlación simple entre Xi y Xj. Sij SiiS jj SiiS jj ? rij ? n __ __
u?1 (3.49) De forma similar
?r 1Y ? W'Y 0 ? ? 2Y ? ?…. ? ? ? ?rKY ?
Donde rjy es la correlación simple entre el regresor Xj y la respuesta Y: uj S jY S jjSYY ? rjy ? n
u?1 __ __ ? X j)(Yu ?Y)
SiiSYY (3.50) Si se utiliza la escala normal unitaria, la matriz ZZ está relacionada con WW como sigue: Z Z = (n 1) W W (3.51) Por lo que no importa que método se utilice para escalamiento, ambos métodos producen el mismo conjunto de coeficientes de regresión sin dimensiones b.
La relación entre los coeficientes originales y los estandarizados es:
b0 ? Y ??bj X SYY SJJ bj ? bj j = 1, 2, ….., k (3.52) y j ___ k ___
j?1 (3.53) Si las variables originales difieren mucho en magnitud, los errores de redondeo al calcular XX pueden ser muy grandes aún utilizando computadora, es por esto que los programas muestran tanto los valores originales como coeficientes de regresión estandarizados (coeficientes Beta). Por tanto se debe tener cuidado de usar éstos últimos para medir la importancia relativa del regresor Xj.
Ejemplo 3.5 Calculando los coeficientes de correlación entre las diferentes variables, se tiene: Con Minitab:
Stat > Basic statistics > Correlation Variables Y_tiempo, X1_envases, X2_Distancia OK
Correlations: Y_tiempo, X1_envases, X2_Distancia Y_tiempo X1_envases ? ? X1_envases 0.965 0.000
X2_Distancia 0.892 0.824 0.000 0.000
r12 = 0.824215 r1y = 0.964615 r2y = 0.891670
La matriz de correlación para este problema WW es:
?1.000000, 0.824215? ?
Las ecuaciones normales en términos de los coeficientes de la regresión estandarizados son: ?1.000000, 0.824215??b1? ?0.964615? ?0.824215, 1.000000??b2? ? ?
Por tanto:
?b1? ?3.11841, ?2.57023??0.964615? ?0.716267? ?b2? ??2.57023, 3.11841?? ? ? ?
El modelo ajustado es:
H = X (XX) X es la matriz sombrero o hat matriz. Y 0 ? 0.716267W 1 ?0.301311W2
De esta forma incrementando el valor estandarizado de envases W1 en una unidad incrementa la unidad estandarizada de tiempo en 0.7162. Además incrementando el valor estandarizado de la distancia W2 en una unidad, incrementa la respuesta en 0.3013 unidades. Por lo tanto parece ser que el volumen de producto surtido es más relevante que la distancia, con ciertas precauciones dado que los coeficientes bs son sólo coeficientes parciales de regresión.
2 SSR SST 5550.816 5784.5426 ? 0.9596 R2 ?
R2 ? Por lo anterior el 96% de la variabilidad en tiempo de entrega es explicada por los dos regresores cantidad de surtimiento X1 y distancia X2. El índice R2 siempre se incrementa cuando se agrega una nueva variable al modelo de regresión, aunque sea innecesaria.
__ 2 innecesarias en el modelo. Se calcula como sigue: (1? R2) N ?1 N ? p ?1? SSE/(N ? p) SST /(N ?1) __2 R ?1? Para el ejemplo se tiene: (1?0.9596) ? 0.9559 25?1 25?3 __2 R ?1? Residuos estandarizados y estudentizados Los residuos se estandarizan como sigue: , ei MSE di ? i = 1, 2, ………., n (3.54) (3.55) Para los residuos estudentizados, utilizamos el vector de residuos:
e = (I H ) Y
donde
-1
Esta matriz tiene las propiedades siguientes: 1. Es simétrica, es decir H = H. 2. Es idempotente, es decir H H = H. 3. En forma similar la matriz I H es simétrica e idempotente.
Por tanto se tiene:
e ?(I ?H)(X? ??) ? X? ?HX? ?(I ?H)? ? X? ? X(X'X)?1X'X? ?(I ?H)? e = (I H) ? (3.55) De esta forma los residuos tienen la misma transformación lineal para las observaciones Y y para los errores ?.
La varianza de los residuos es: Var(e) ?? 2(I ? H) (3.56) Como la matriz I H no es diagonal, los residuos tienen diferentes varianzas y están correlacionados. La varianza del residuo i-ésimo es: V(ei) ?? 2(1?hii) (3.57) Donde hii es el elemento diagonal i-ésimo de H.
Tomando esta desigualdad de varianza en cuenta, varios autores recomiendan para escalamiento de los residuos, graficar los residuos estudentizados siguientes en lugar de ei (o di): , i ei MSE(1?hii) r ? i = 1, 2, ………., n (3.58) Los residuos estudentizados tienen varianza constante = 1, independientemente de la localización de Xi, cuando la forma del modelo es correcto. A pesar de que los residuos estandarizados y los estudentizados proporcionan casi la misma información, como cualquier punto con residuo y hii grande tiene una influencia potencial en el ajuste de mínimos cuadrados, se recomienda el análisis de los residuos estudentizados.
La covarianza entre ei y ej es: Cov(ei,ej) ? ?? 2hij (3.59) De tal forma que otra forma de escalamiento de residuos es transformar los residuos n dependientes en n-p funciones ortogonales de los errores ?.
Residuos PRESS Suma de cuadrados del error de predicción
La suma de cuadrados del error de predicción (PRESS) propuesto por Allen (1971) proporciona un escalamiento útil para los residuos. Para calcular PRESS, seleccione una observación, por ejemplo (i), Ajuste el modelo de regresión a las observaciones remanentes (N 1), usando la ecuación para predecir la observación retenida (Yi). Denotando el error de predicción como: e(i) ?Yi ?Y(i) (3.60) El error de predicción es normalmente denominado el residuo i-ésimo PRESS, el procedimiento se repite para cada una de las observaciones i = 1, 2, ….., N, produciendo los residuos PRESS correspondientes. Así el estadístico PRESS se define como la suma de cuadrados de los N residuos PRESS, como:
El presente texto es solo una selección del trabajo original.Para consultar la monografía completa seleccionar la opción descargar del menú superior.
Página anterior | Volver al principio del trabajo | Página siguiente |