Z ? arctanh(r) ? ln Como Syy es una medida de la variabilidad en Y sin considerar el efecto de la variable regresora X y SSE es una medida de la variabilidad en Y que queda después de que se ha considerado X, R2 mide la proporción de la variación total respecto a la media que es explicada por la regresión. Es frecuente expresarla en porcentaje. Puede tomar valores entre 0 y 1, los valores cercanos a 1 implican que la mayoría de la variabilidad es explicada por el modelo de regresión.
En el ejemplo: R-Sq = 71.4% R-Sq(adj) = 70.2% Se debe tener cuidado con la interpretación de R2, ya que su magnitud también depende del rango de variabilidad en la variable regresora. Generalmente se incrementa conforme se incrementa la dispersión de X y decrece en caso contrario, de esta forma un valor grande de R2 puede ser resultado de un rango de variación no realista de X o puede ser muy pequeña debido a que el rango de X fue muy pequeño y para permitir la detección de su relación con Y.
Para probar la hipótesis H0: ? = 0 contra H1: ? ? 0, el estadístico apropiado de prueba es: r n?2 1?r2 t0 ? (1.28) que sigue una distribución t con n-2 grados de libertad. Si t0 ? t? /2,n?2 se rechaza la hipótesis Ho, indicando que existe una correlación significativa.
Por ejemplo si en un grupo de 25 observaciones se obtiene una r = 0.9646 y se desea probar las Hipótesis:
Ho: ? = 0 H1: ? ? 0
Usando el estadístico de prueba to: ?17.55 0.9646 25?2 1?0.9305 t0 ? como t0.025,23=2.069, se rechaza Ho indicando que sí hay correlación significativa entre los datos.
Para probar la hipótesis H0: ? = ?0 contra H1: ? ? ?0 , donde ?0 no es cero y Si n ? 25 se utiliza el estadístico transformación-z de Fisher: 1?r 1?r (1.29) 2 1 2
Con media
?Z ? arctanh(?)
y desviación estándar
1 ? Z ? n?3
z ? (n?3)1/2? ln( )? ln( 1? ?0 ? 1? ?0 ? tanh?arctanhr ? ? ? ? ? tanh?arctanhr ? Z? /2 ? tanh?2.0082? ? ? ? ? tanh?2.0082? ? ?? z?1? 1 ?1?r ? ? 2 ?1?r ? ? ?? 1 ? 2 ???n?3?? ? ln? ? 1 ?1? ? ? 2 ?1? ? ? ? En base a la fórmula de la distribución normal, se calcula el estadístico Zo siguiente para probar la hipótesis Ho: ? = ?0, Z0 ?(arctanh(r)?arctanh(?0)( n?3 (1.30) Z0 ? Z? /2 y rechazar si
Obteniéndose )? 1 2 ?1 ?2 1?r 1?r (1.31) y el intervalo de confianza (100 – ?)% para ? está dado por: ? ? ? n?3? Z? /2 ? ? n?3? ? (1.32) Del ejemplo anterior, se puede construir un intervalo de confianza del 95% para ?.
Siendo que arctanh r = arctanh0.9646 = 2.0082, se tiene: 1.96? 22 ? 1.92 ? ? 22 ? ? ? ?
Se simplifica a 0.9202 ? ? ?0.9845. Se requiere un análisis adicional para determinar si la ecuación de la recta es un ajuste adecuado a los datos y si es un buen predictor. ? ? ? ln? 1/2 (1.33) Otro ejemplo, si n=103, r=0.5, ? = 0.05. Se tiene que el intervalo de confianza es:
(1/2) ln 3 ? 0.196 = (1/2)ln{(1+?)/(1-?)}
Por tanto ? se encuentra entre (0.339, 0.632)
1.3 Riesgos en el uso de la regresión Hay varios abusos comunes en el uso de la regresión que deben ser mencionados:
1. Los modelos de regresión son válidos como ecuaciones de interpolación sobre el rango de las variables utilizadas en el modelo. No pueden ser válidas para extrapolación fuera de este rango. 2. La disposición de los valores X juega un papel importante en el ajuste de mínimos cuadrados. Mientras que todos los puntos tienen igual peso en la determinación de la recta, su pendiente está más influenciada por los valores extremos de X. En este caso debe hacerse un análisis minucioso de estos puntos y en todo caso eliminarlos y re estimar el modelo. En la figura se observan dos puntos que influyen en el modelo de ajuste, ya que si se quitaran, el modelo de línea recta se modificaría. Y *A
* * * * * Sin A y B * * * * *B
X Fig. 1.3 Dos observaciones con mucha influencia (A,B)
3. Los outliers u observaciones malas pueden distorsionar seriamente el ajuste de mínimos cuadrados. En la figura, la observación A parece ser un outlier o valor malo ya que cae muy lejos de la línea de ajuste de los otros datos. Debe investigarse esta observación.
Y *A * * * * ** * ** ** * ** * * * ** * *
X
Fig. 1.4 Localización de un outlier (A)
4. Si se encuentra que dos variables están relacionadas fuertemente, no implica que la relación sea causal, se debe investigar la relación causa efecto entre ellas. Por ejemplo el número de enfermos mentales vs. número de licencias recibidas.
Tabla 1.1 Una relación de datos sin sentido Año 1924 Enfermos mentales 8 Licencias emitidas 1,350
? y x ?x ? YY ? y ? ? 1? yixi ?1?ta/2,n?1 ?x ?x Y0?ta/2,n?2 ?x 1926 1928 1930 1932 1934 1936 9 11 12 18 20 22 2,270 2,730 3,647 5,497 7,012 8,131 5. En algunas aplicaciones el valor de la variable regresora X requerida para predecir a Y es desconocida, por ejemplo al tratar de predecir la carga eléctrica el día de mañana en relación con la máxima temperatura de mañana, primero debe estimarse cuál es esa temperatura.
1.4 Regresión a través del origen Algunas situaciones implican que pase la línea recta a través del origen y deben adecuar a los datos. Un modelo de no intersección frecuentemente se presenta en los procesos químicos y otros procesos de manufactura, el modelo queda como:
Y ? ?1X ?? Dadas n observaciones (Yi, Xi), i = 1, 2, ., n, la función de mínimos cuadrados: n
i?1 La ecuación normal es: n n
i?1 i?1 y el estimador de mínimos cuadrados de la pendiente es: i i
2 i n
i?1 n
i?1 ?1 ? Y el modelo estimado de regresión es:
y ? ?ix El estimador de la varianza es: ? S n
i?1 n
i?1 n?1 2 i ?b1SXY n?1 SSE n?1 ? 2 ? MSE ? El intervalo de confianza (1-alfa) porciento para el coeficiente Beta1 es: MSE n 2 i i?1 ^ MSE n 2 i i?1 donde el error estándar es: se(?1) ? El intervalo de confianza 100(1-alfa) porciento para la respuesta media E(y|Xo), la respuesta media en X = Xo es: 2 x0MSE n 2 i i?1 ^ El intervalo de predicción del 100(1-alfa) porciento para una observación futura en X = Xo por ejemplo Yo es:
Y0?ta/2,n?2 ? ? ?1? x0 ? ? ? ? ? i 1 xi2 ? ? ? ?
? ? n MSE 2 ^ Ambos el intervalo de confianza y el intervalo de predicción se amplían conforme se incrementa Xo. El modelo asume que cuando Xo = 0, Y = 0.
Si la hipótesis Ho: ?0 = 0 no se rechaza en el modelo con intersección, es indicción de que el modelo se puede mejorar con este modelo. MSE se puede utilizar para comparar los modelos de intersección y de no intersección.
Ejemplo 1.3 El tiempo requerido por un tendero para surtir su negocio de refrescos así como el número de envases colocados se muestra en la siguiente tabla. En este caso si el número de envases X = 0 entonces el tiempo Y = 0. Tiempo Minutos Y 10.15 2.96 3 6.88 0.28 5.06 9.14 11.86 11.69 6.04 7.57 1.74 9.38 0.16 1.84 Envases X 25 6 8 17 2 13 23 30 28 14 19 4 24 1 5 Suma XY 253.75 17.76 24 116.96 0.56 65.78 210.22 355.8 327.32 84.56 143.83 6.96 225.12 0.16 9.2 1841.98 X2 625 36 64 289 4 169 529 900 784 196 361 16 576 1 25 4575 El diagrama de dispersión es el siguiente:
Y ? y x ?x 30 20 10 0 10
5 0 X S = 0.305139 R-Sq = 99.5 % R-Sq(adj) = 99.4 % Regression 95% CI Regression Plot Y = -0.0937558 + 0.407107 X El coeficiente Beta 1 es: 1841.98 4575.00 ? 0.4026 ? n
i?1 n
i?1 i i
2 i ?1 ? La ecuación del modelo estimado sin intersección es: Con Minitab: Stat > Regresión > Regresión Responde Y Predictors X Options: Quitar la selección de Fit intercept Results: dejar opciones de Default OK
Los resultados de Minitab son: The regression equation is Y = 0.403 X Predictor Coef SE Coef T P Noconstant X 0.402619 0.004418 91.13 0.000 S = 0.2988 Analysis of Variance Source DF SS MS F P Regression 1 741.62 741.62 8305.23 0.000 Residual Error 14 1.25 0.09 Total 15 742.87
y ? 0.4026 MSE = 0.0893 Ro2 = 0.9883 El estadístico t para la prueba Ho: ?1 = 0 es to = 91.13, por tanto el coeficiente es significativo a un alfa de 0.01.
Utilizando un modelo con intersección resultando en: Stat > Regresión > Regresión
Responde Y Predictors X Options: Poner la selección de Fit intercept Results: dejar opciones de Default OK Los resultados de Minitab son los siguientes: The regression equation is Y = – 0.094 + 0.407 X Predictor Coef SE Coef T P Constant -0.0938 0.1436 -0.65 0.525 X 0.407107 0.008221 49.52 0.000 S = 0.3051 R-Sq = 99.5% R-Sq(adj) = 99.4% Analysis of Variance Source DF SS MS F P Regression 1 228.32 228.32 2452.13 0.000 Residual Error 13 1.21 0.09 Total 14 229.53
y ? ?0.0938?0.4026 El estadístico t para la prueba Ho: ?0 = 0 es to = -0.65, por tanto el coeficiente no es significativo a un alfa de 0.01, implicando que el modelo de no intersección puede proporcionar una estimación superior. Aquí MSE = 0.0931 y R2 = 0.9997. Como MSE es menor que en el modelo anterior, es superior.
Ejemplo 1.2:
Un motor se fabrica con dos partes. La resistencia al corte entre las dos partes (Y) es una característica importante de calidad que se sospecha es función de la antigüedad del propelente (X). Los datos se muestran a continuación: El diagrama de dispersión de la resistencia al corte versus el propelente se muestra a continuación
Y 25 20 15 10 5 0 Diagrama de dispersión
2600
2100
1600 X
La figura sugiere que hay una relación estadística entre la resistencia al corte y la antigüedad del propelente, y el supuesto de relación lineal parece ser razonable, para estimar los parámetros del modelo se calcula Sxx y Sxy:
Sumas de cuadrados Los cálculos en Excel son los siguientes: Suma 42627.15 267.25 1106.56 1693737.60 -41112.65
?X Y ?X Media 2131.36 13.36 n __ 2
i?1 n __2
i?1
n __
i?1 Sxx = 1106.56 Syy = 1693737.60 Sxy = -41112.65 Sumas de cuadrados y ecuación de regresión ? Sxy Sxx i i
2 i __ __ ?n X Y
__ 2 ?n X n
i?1 n
i?1 b1 ? = ? ?37.15 ?41112.65 1106.56 ? Sxy Sxx b1 ? La constante bo se determina como sigue: __ __ b0 ?Y?b1 X = 21131.35 y la ecuación de regresión queda como sigue:
y ? 2627.82?37.15
Valores ajustados (fits) y residuos
? y ?? y ?x e ? y e Suma
Propiedades de la regresión Hay varias propiedades útiles del ajuste de mínimos cuadrados: 1. La suma de los residuos en cualquier modelo de regresión es siempre cero. n n
i?1 i?1
2. La suma de los valores observados Yi es igual a la suma de los valores estimados Yi est. o sea (ver tabla de datos como ejemplo): i i n n
i?1 i?1 3. La línea de regresión siempre pasa por el punto ( y,x ) de los datos. 4. La suma de los residuos multiplicados por los valores correspondientes de la variables regresora siempre es igual a cero. i i n
i?1 ? 0 5. La suma de los residuos multiplicados por los valores correspondientes de la variables de estimación Y siempre es igual a cero. i i n
i?1 ? 0 A partir de los valores calculados anteriormente: Sxx = 1106.56 Syy = 1693737.60 Sxy = -41112.65
Ahora se estima la varianza con: ? 2 ? ? YY n?2 n?2 166, 402.65 20 ? 9244.59 1693737.60?(?37.15)(?42627.15)2 22?2 ? ? 2 ? ? 2 ? SSE n?2 Forma alterna del modelo: Si la variable regresora Xi se redefine como la desviación contra su propia media (Xi-Xmedia), el modelo se transforma en: yi ? ?0 ? ?1(xi ? x)? ?1x ?? yi ? (?0 ? ?1x)? ?1(xi ? x)?? yi ? ?'0??1(xi ? x)?? ?'0 ? ?0 ? ?1x Y los estimadores de mínimos cuadrados son: ?0 ? y
? y (x ?(x Sxy Sxx ? n
i?1 n
i?1 i i ? x)
i ? x)2 ?1 ? El modelo ajustado queda como:
y ? y ??1(x? x) En este caso el origen de los datos Xi se encuentra en su media,
Pruebas de hipótesis de la pendiente e intercepción Probar la hipótesis para b0 no tiene interés práctico. Ahora para probar la significancia de b1 se tiene: SXX b1 MSE t0 ? para (? /2,n?2) grados de libertad (1.23) ? ?3.029 ?37.15 166402.65 1106.56 t0 ? Si t0 ?t?/2,n?2 se rechaza la hipótesis nula, indicando que ?1 es significativo y se tiene regresión lineal.
t? /2,n?2=Distr.t(0.025,18) = 2.445
y To se encuentra en la zona de rechazo de Ho por lo que ?1representa una regresión válida Análisis de varianza De SSR ?b1SXY =(-37.15)(-41,112.65)=1,527,334.95 SSE ? SSYY ?b1SXY =166,402.65 Para probar la hipótesis Ho: ?1=0 se usa el ANOVA con el estadístico Fo como sigue: 1,527,334.95 9,244.59 ?165.21 ? ? MSR MSE SSR/1 SSE /(n?2) Fo ? El estadístico F de Excel es: Falfa,1,n-2 = 4.413863053 Como Fo > Falfa se rechaza Ho y el coeficiente Beta es significativo.
La tabla ANOVA queda como sigue: Fuente de variación Suma de cuadrados Grados de libertad Cuadrado medio Fo Reegresión 1,527,334.95 1 1,527,334.95 165.21 9,244.59 Residuos Total 166,402.65 1,693,737.60 18 19
?1?ta/2,n?2 ?1 Y0?ta/2,n?2 MSE? ? ? ? ? ? 1 Y0?(2.101) 9244.59? ? ? ? ? La incapacidad de mostrar que la pendiente no es estadísticamente significativa o diferente de cero, no necesariamente significa que Y y X no estén relacionados. Puede significar que nuestra habilidad para detectar esta relación ha sido obscurecida por la varianza del proceso de medición o que el rango de la variable X es inapropiado.
Estimación por intervalo en ?0, ?1 y ? Para el caso del ejemplo, el intervalo de confianza para ?1 es: MSE SXX MSE SXX 9244.59 1106.56 donde el error estándar es: se(?1) ?
? 2.89 ^
se(?1) ? 18(9244.59) 8.23 18(9244.59) 31.5 ?? 2 ? 2
Intervalo de estimación para la respuesta media De la fórmula: ?n ^ (x0 ? x)2 ? Sxx ? ? ?20 ^ (x0 ?13.3625)2 ? 1106.56 En Xo = 13.3625 se tiene: 2086.23? E(y13.3625) ? 2176.571 Para otros casos auxiliándose de Minitab se tiene: El intervalo de confianza para el 95% donde se encuentra el valor verdadero del coeficiente Beta1 es: ^
?43?22? ?1 ? ?31.08
El intervalo del 95% de porcentaje de confianza de la varianza es: (n?2 )MSE (n?2 )MSE 2
Y ? ?Y0 ?Y0 ?t? /2,n?2 MSE?1? ? 25 20 15 10 5 0 2600 2100 1600 S = 96.1061 R-Sq = 90.2 % R-Sq(adj) = 89.6 % Regression 95% CI Regression Plot Y = 2627.82 – 37.1536 X X
El intervalo de confianza para la respuesta media Yo de varios valores Xo es: Predicción de nuevas observaciones:
Una aplicación importante del modelo de regresión es predecir nuevas observaciones Y correspondientes a un nivel de la variable regresora X, si Xo es el valor de la variable de Interés se tiene: ? ? ? ? ? MSE __ (X 0 ? X)2 ? SXX ? ? 1 n __ (X 0 ? X)2 ? SXX ? ? 1 n ? ?1? ? ? Y0 ?t? /2,n?2 Para el ejemplo, un intervalo de predicción del 95% para un valor futuro de la resistencia al corte Y con un propelente de 10 semanas de antigüedad es:
2256.32?(2.101) 9244.59?1? ? ?Y0 ? 2256.32?(2.101) 9244.59?1? n(? 0 ? ?0)2 ? 2?xi(? 0 ? ?0)(? 1 ? ?1)??x2i(? 1 ? ?1) ?1 E(Y Xi) ?YXi? ? MSE? ? ? ? ? ? ? ? ? ? ? 1 20 1 20 (10?13.3625)2 ? ? 1106.56 ? (10?13.3625)2 ? 1106.56 ? que se simplifica a:
2048.32? y0 ? 2464.32
Por tanto un motor nuevo hecho con un propelente de 10 semanas de antigüedad tendrá una resistencia al corte de entre 2048.32 a 2464.32 psi.
Inferencia simultanea para los parámetros del modelo La región del 95% de confianza para ?0 y ?1, si ?0est=2627.82 y ?1est=-37.15, suma Xi2=4677.69, MSE=9244.59 y F0.05,2,18=3.55 se tiene de la fórmula: n n
i?1 i?1 2MSE ? F?,2,n?2 ? 3.55 20( 2627.82? ?0)2 ? 2( 267.25)( 2627.82? ?0)(?37.15? ?1)?( 4677.69)(?37.15? ?1)2 2(9244.59)
Es el límite de la elipse. Beta 0
Beta 1
Estimación simultanea de la respuesta media Para el caso de la estimación simultánea de la respuesta media se tiene: ?n ^ (xi ? x)2 ? Sxx ? Determinado el intervalo por el método de Scheffé se tiene: E(Y Xi ?10) ? 2256.282? ?68.633 E(Y Xi ?18) ?1959.050? ?69.236
Determinando el intervalo por el método de Bonferroni se tiene: ? ?(2F ?,2,n?2)1/2 ?(2F0.10,2,18)1/2 ?(6.02)1/2 ? 2.454
Seleccionando el método de máximo modulo t, los intervalos de confianza al 90% de la respuesta media son:
? yxi ?YXi? ? MSE? ?1? ? ? 2 18 1959.020 E(Y X1 ?10) ? 2256.282?(2.082)68.633 2087.857 ? E(Y X1 ?10) ? 2424.707 E(Y X 2 ?18) ?1959.050?(2.082)69.236 1789.145 ? E(Y X 2 ?18) ? 2129.955 Predicción de nuevas observaciones
Sea Xi = 10 y 18, los estimadores puntuales de estas observaciones futuras son Yest x1 = 2256.282 psi y Yest x2 = 1959.050 psi, respectivamente. Para la regresión lineal simple y m = 2 se tiene: ? ? ^ (xi ? x)2 ? Sxx ? 1 n 2256.282??118.097 ? yx1 ? 2256.282? ?118.097 1959.050??118.097 ? yx2 ?1959.050? ?118.097 Seleccionando el valor de ?=2.082 de Bonferroni se tiene: 1966.472 ? yx1 ? 2546.092 1668.376 ? yx2 ? 2249.724
Coeficiente de determinación Con los datos del ejemplo para la suma de cuadrados de la regresión y la suma de cuadrados total se tiene: 1,527.334.95 1,693,737.60 ? 0.9018 ? SSR Syy R2 ?? 2.0 ADECUACIÓN DEL MODELO DE REGRESIÓN LINEAL
2.1 Introducción Los principales supuestos que se hacen en el análisis de regresión lineal son los siguientes: 1. 2. 3. 4. 5. La relación entre las variables Y y X es lineal, o al menos bien aproximada por una línea recta. El término de error ? tiene media cero. El término de error ? tiene varianza constante ?2. Los errores no están correlacionados. Los errores están normalmente distribuidos. Los supuestos 4 y 5 implican que los errores son variables aleatorias independientes y el supuesto 5 se requiere para pruebas de hipótesis y estimación de parámetros.
Se analizarán varios métodos para diagnosticar y tratar violaciones sobre los supuestos básicos de la regresión no sólo lineal sino también la múltiple.
2.2 Análisis de los residuos 2.2.1 Definición de los residuos
Los residuos están definidos como las n diferencias,
ei ?Yi ?Y i,i ?1,2,3…,n ?(ei ? e) ?e MSE?1?? ? ? ? ?? ^ (2.1) donde Yi son las observaciones reales y Y-gorro los valores estimados con la recta de regresión.
Como los residuos son las diferencias entre las observaciones reales y las predichas o estimadas, son una medida de la variabilidad no explicada por el modelo de regresión, e el valor observado de los errores. Así, cualquier desviación anormal de los supuestos acerca de los errores, será mostrada por los residuos. Su análisis es un método efectivo para descubrir varios tipos de deficiencias del modelo.
Los residuos tienen varias propiedades importantes. Su media es cero y su varianza aproximada es: ? MSE ? ? SSE n?2 n 2 i i?1 n?2 i?1 n __ 2
n?2 (2.2) En algunos casos es mejor trabajar con residuos estandarizados, que tienen media cero y varianza unitaria aproximada. ei MSE ,….1?1,2,…..,n di ? (2.3) Para el caso de n pequeña, donde se pueden tener diferencias apreciables en las varianzas de los residuos, un método más apropiado de escalamiento es el de los residuos estudentizados , donde se toma en cuenta la varianza de cada uno en lugar de un promedio de las varianzas como en los residuos estandarizados. Para n grande, ambos residuos son muy parecidos.
Los residuos estudentizados se definen como: , ? ?1 i (X i ? X)2 ?? SXX ?? ? ?n ei r ? i = 1, 2, …….., n (2.4) Por lo anterior los residuos representan los errores observados si el modelo es correcto.
Los residuos pueden ser graficados para: 1. Checar normalidad. 2. Checar el efecto del tiempo si su orden es conocido en los datos. 3. Checar la constancia de la varianza y la posible necesidad de transformar los datos en Y. 4. Checar la curvatura de más alto orden que ajusta en las Xs.
A continuación con Minitab se calculan los residuos con los datos del ejemplo 1.1 y a partir de la recta de ajuste.
Observaciónes
2.2.2 Gráfica de probabilidad normal Se utiliza la gráfica de probabilidad normal para identificar si algunos residuos sesgan la respuesta de la normal. Normalmente se requieren 20 puntos para checar normalidad. Normplot of Residuals for C1 .
La gráfica de residuos contra los valores estimados Residuals vs Fits for C1
Se sugiere utilizar los residuos estandarizados, ya que son útiles para evaluar normalidad, es decir que habrá normalidad si el 68% de los mismos se encuentran entre 1 y +1 y el 95% entre 2 y +2, de otra forma habrá una violación de la normalidad.
^ yi puede identificar patrones anormales o no lineales, indicando que tal vez se requiera agregar otra variable regresora al modelo, o se requiera transformar las variables regresora o de respuesta. También puede revelar outliers potenciales, si ocurren en los extremos, indican que la varianza no es constante o que no hay relación lineal entre variables.
Para el caso del ejemplo 1.2 con los datos X y Y se tienen los residuos estandarizados y estudentizados son:
Utilizando Minitab se tiene: Regression Analysis: Y versus X The regression equation is Y = 2628 – 37.2 X Predictor Coef SE Coef T P Constant 2627.82 44.18 59.47 0.000 X -37.154 2.889 -12.86 0.000 S = 96.1061 R-Sq = 90.2% R-Sq(adj) = 89.6%
Analysis of Variance Source DF SS MS F P Regression 1 1527483 1527483 165.38 0.000 Residual Error 18 166255 9236 Total 19 1693738
No replicates. Cannot do pure error test.
Unusual Observations Obs X Y Fit SE Fit Residual St Resid 5 5.5 2207.5 2423.5 31.3 6 19.0 1708.3 1921.9 27.0 -216.0 -213.6 -2.38R -2.32R La tabla de valores estimados Fits, Residuos, Residuos estandarizados, Residuos estudentizados borrados y Residuos estudentizados simples se muestra a continuación:
Residual Percent Frequency Residual Para el cálculo de los residuos estudentizados se utilizó la tabla siguiente: MSE = Raiz MSE (Xi- Xmedia)^2 9236 96.10411021
1/20 + (Xi- Y 2158.70 1678.15 2316.00 2061.30 2207.50 1708.30 1784.70 2575.00 2357.90 2256.70 2165.20 2399.55 1779.80 2336.75 1765.30 2053.50 2414.40 2200.50 2654.20 1753.70 X 15.50 23.75 8.00 17.00 5.50 19.00 24.00 2.50 7.50 11.00 13.00 3.75 25.00 9.75 22.00 18.00 6.00 12.50 2.00 21.50 FITS1 2051.94 1745.42 2330.59 1996.21 2423.48 1921.9 1736.14 2534.94 2349.17 2219.13 2144.83 2488.5 1698.98 2265.57 1810.44 1959.06 2404.9 2163.4 2553.52 1829.02 RESI1 106.7580 -67.2750 -14.5940 65.0890 -215.9780 -213.6040 48.5640 40.0620 8.7300 37.5670 20.3740 -88.9460 80.8170 71.1750 -45.1430 94.4420 9.4990 37.0980 100.6850 -75.3200 ResEstan1 1.11086 -0.70002 -0.15186 0.67728 -2.24733 -2.22263 0.50533 0.41686 0.09084 0.39090 0.21200 -0.92552 0.84093 0.74060 -0.46973 0.98271 0.09884 0.38602 1.04767 -0.78373 Sxx 4.56891 107.90016 28.75641 13.23141 61.81891 31.78141 113.15641 117.99391 34.36891 5.58141 0.13141 92.40016 135.43141 13.05016 74.60641 21.50641 54.20641 0.74391 129.10641 66.21891 Xmedia)^2/Sxx 0.05413 0.14751 0.07599 0.06196 0.10587 0.07872 0.15226 0.15663 0.08106 0.05504 0.05012 0.13350 0.17239 0.06179 0.11742 0.06944 0.09899 0.05067 0.16667 0.10984 Ri 1.14220 -0.75817 -0.15798 0.69929 -2.37666 -2.31564 0.54883 0.45392 0.09476 0.40212 0.21752 -0.99426 0.92437 0.76460 -0.50000 1.01871 0.10413 0.39619 1.14767 -0.83068 200 100 0 -100 -200 99 90 50
10 1 2600 2400 2200 2000 1800 100
0 -100 -200 Residual 100 50 0 -50 -100 -150 -200 6.0 4.5 3.0 1.5 0.0 Observation Order 20 18 16 14 12 10 8 6 4 2 100
0
-100 -200 Normal Probability Plot of the Residuals Residuals Versus the Fitted Values Residual Histogram of the Residuals Fitted Value Residuals Versus the Order of the Data Las gráficas de los residuos normales son las siguientes:
Residual Plots for Y Tomado los residuos estandarizados vs fits se tiene:
Percent Standardized Residual 3 2 1 0 -1 -2 -3 99
95 90 80 70 60 50 40 30 20 10 5 1 Normal Probability Plot of the Residuals (response is Y) 2600 2500 2400 2300 2200 2100 2000 1900 1800 1700 1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5 Standardized Residual
Residuals Versus the Fitted Values (response is Y) Fitted Value
Y para los residuos estudentizados se tiene:
Deleted Residual Fitted Value 2600 2500 2400 2300 2200 2100 2000 1900 1800 1700 1
0
-1
-2
-3 Residuals Versus the Fitted Values (response is Y) Como se puede observar los puntos 5 y 6 exceden el límite de dos sigmas.
2.2.3 Gráfica de residuos vs Yestimada La gráfica de residuos normales, estandarizados o estudentizados vs los valores estimados de Y es útil para identificar no adecuaciones del modelo. Patrones de variación de los residuos a) Aleatorio; b) Cono (aumenta la varianza); c) Rombo; d) No lineal
Standardized Residual Standardized Residual 25 20 15 10 5 0 2.2.4 Gráfica de residuos vs Xi Los patrones generados a veces son similares a los de la figura anterior, por ejemplo para el caso del ejemplo 1.2, se tiene: En Minitab (Graphs seleccionar Residual vs Fits y Residuals vs Variables X)
Residuals Versus X (response is Y)
1.0 0.5 0.0 -0.5 -1.0 -1.5 -2.0 -2.5 20 18 16 14 12 10 8 6 4 2 X
En este caso los residuos para los puntos 5 y 6 exceden de dos sigmas sin embargo no muestran indicios de violación del modelo.
2.2.5 Otras gráficas de residuos Se pueden obtener gráficas de los residuales vs el tiempo de ocurrencia u orden: Residuals Versus the Order of the Data (response is Y)
1.0 0.5 0.0 -0.5 -1.0 -1.5 -2.0 -2.5 Observation Order En este caso se puede identificar si existe autocorrelación positiva o negativa de los residuos como sigue:
Residuos vs tiempo: Autocorrelación positiva Autocorrelación negativa 2.2.6 Pruebas estadísticas en los residuos Las pruebas estadísticas en los residuos son menos prácticas que la observación de su comportamiento donde se obtiene más información.
2.3 DETECCIÓN Y TRATAMIENTO DE OUTLIERS Un Outilier es una observación extrema, donde el residuo es considerablemente grande, por decir con tres o cuatro desviaciones estándar de la media. Estos puntos no son puntos típicos de los datos y pueden ocasionar defectos severos en el modelo de regresión. Las gráficas de Y estimada vs residuos ya sea estandarizados o estudentizados permiten identificar Outliers (puntos aberrantes).
Los outliers deben ser investigados para ver si se puede hallar la razón de su comportamiento anormal (medición incorrecta, equipo dañado, error de anotación). Si se encuentra que se debe a un error se debe descartar de los datos. En otros casos donde se encuentra una razón se debe mantener en la estimación del modelo.
En general se espera que la ecuación de regresión encontrada sea insensible a algunos puntos particulares, para que sea un modelo robusto. Puede no ser aceptable que un pequeño porcentaje de los datos tenga un efecto significativo en el modelo. Con los datos del ejemplo 1.2 si omitimos los puntos 5 y 6 que indican Outliers y compramos nuevo modelo con el modelo anterior se tiene:
Con el modelo original: The regression equation is Y = 2628 – 37.2 X
Predictor Coef SE Coef T P Constant 2627.82 44.18 59.47 0.000 X -37.154 2.889 -12.86 0.000 S = 96.1061 R-Sq = 90.2% R-Sq(adj) = 89.6%
Y con el modelo donde se excluyen los puntos 5 y 6 se tiene: The regression equation is Y_1 = 2659 – 37.7 X_1
Predictor Coef SE Coef T P Constant 2658.97 30.53 87.08 0.000 X_1 -37.694 1.979 -19.05 0.000 S = 62.9653 R-Sq = 95.8% R-Sq(adj) = 95.5%
Percent Standardized Residual 3 2 1 0 -1 -2 -3 99
95 90 80 70 60 50 40 30 20 10 5 1 Normal Probability Plot of the Residuals (response is Y_1) 2600 2400 2200 2000 1800 1600 1.5 1.0 0.5
0.0 -0.5 -1.0 -1.5 -2.0 Standardized Residual
Residuals Versus the Fitted Values (response is Y_1) Fitted Value
Casi no hubo efecto en la estimación de los coeficientes de la regresión. La MSE se redujo mucho, se incrementó R^2 en 5% y se redujo en 30% el error estándar de ?1. En General a pesar de que los puntos 5 y 6 no afectan la estimación y aplicación del modelo, y el quitarlos mejoraría el error de estimación aunque no hay una razón de peso.
2.4 PRUEBA DE FALTA DE AJUSTE
Falta de ajuste y el error puro
Se asume que se cumplen los requerimientos de normalidad, independencia y varianza constante y que sólo se tiene en duda si la relación entre las variables es de primer orden o sea una línea recta.
Para el cálculo del error puro se requiere hacer réplicas verdaderas, por ejemplo medir el coeficiente de inteligencia de dos personas con la misma estatura en vez de hacer dos mediciones repetidas de la misma persona, o realizar dos experimentos en diferente tiempo con la misma X y registrando el valor de la respuesta.
Suponiendo que se tienen m valores diferentes de Xj, con j=1,2….m, por tanto:
? ? u 1 (Y1u ?Y) ??Y ? ??Y1u ? SS.error.puro?? ?(Yju ?Yj)2 ne ??n j ?m ?(Y 1 Y11, Y12,…..,Y1n1 son n1 observaciones repetidas en X1; Y21, Y22,……,Y2n2son n2 observaciones repetidas en X2; ……….. Yju es la observación u-ésima (u=1,2,….,nj) en Xj; Ym1, Ym2,…..,Ymn1 son n observaciones repetidas en Xm.
La suma de cuadrados del error puro de las n1 observaciones en X1 es la suma de cuadrados interna de la Y1u con respecto a su media Y1, o sea: 2 2 2 n1 __ n1
u?1 1u 1 ? n1 ? n1? i?1 ? (2.5) Reuniendo las sumas internas de cuadrados de todos los lugares donde se tomaron réplicas se tiene el error puro total SS como: n1 __
u?1 m
j?1 (2.6) (2.7) Con grados de libertad:
m
j?1
Para el caso de nj= 2 se tiene: ju __ ?Y j)2 ? (Yj1 ?Yj2)2 2 2
u?1 (2.8) e El cuadrado medio del error puro es:
s2 ? SS.error.puro/ne (2.9) De esta forma la suma de cuadrados del error residual se divide en suma de cuadrados de falta de ajuste y error puro. (2.10)
(2.11) Donde SSE(residual) ? SSPE(error.puro)?SSLOF( falta.de.ajsute)
El residuo (ij-ésimo) es:
__ ^ __ ^ Yij ?Y i ? (Yij ?Y i)?(Yi ?Yi)
__ Y i es el promedio de las ni observaciones en Xi. La suma de cuadrados del error puro es:
SSPE ??? (Yij ?Y i)2 i?1 j?1 ^ SSLOF ??ni(Y i?Y i)2 (2.12)
(2.13) m ni __
i
La suma de cuadrados de la falta de ajuste:
m __
i?1
El estadístico Fo para la falta de ajuste es: MSLOF MSPE ? SSLOF /(m?2 ) SSPE /n?m) F0 ? (2.14) El valor esperado de MSPE ?? 2 (2.15) Ejemplo 2.4.1: Tomando un nuevo grupo de datos en los cuales hay algunas réplicas por ejemplo se tomaron 2 valores para X = 1.3, 2.0, 3.3, 3.7, 4.7 y 6.0 y se tomaron 3 valores para X =4,5.3. La tabla de datos completa se muestra a continuación: La recta de ajuste estimada con Minitab es la siguiente:
Regression Analysis: Y versus X (Pure Error)
The regression equation is Y = 1.43 + 0.316 X
Predictor Coef SE Coef T P Constant 1.4256 0.5127 2.78 0.011 X 0.3158 0.1149 2.75 0.012 De la fórmulas anteriores se tiene: Para X = 1.3 de la ecuación 2.8 se tiene:
SSError.puro = (1/2)(2.3-1.8)2 = 0.125 con 1 grado de libertad, de la misma forma se procede para los demás, obteniéndose:
Para el caso de n1>2 se aplica la fórmula normal (2.5), para el caso de X = 4.0 se tiene:
SSError.puro=(2.8)2+(2.8)2+(2.2)2 (2.8+2.8+2.2)2/3 =0.24
Lo mismo se aplica al X = 5.3.
Por tanto la tabla de datos queda como sigue: Nivel de X 1.30.125 1.4 Sserror.puro
0.845 gl 1 1 3.32.00 1 3.72.000 4.70.845 6.00.020 4.00.240 5.30.980 1 1 1 2 2
Totales 7.055 10 La suma de cuadrados del error por falta de ajuste se obtiene restando de la suma de cuadrados del error residual, la suma de cuadrados del error puro. Ahora se calcula F contra el error puro medio cuadrático.
De esta forma se obtiene la tabla de ANOVA siguiente, utilizando Minitab:
Analysis of Variance
Source DF SS MS F P Regression 1 5.4992 5.4992 7.56 0.012 sign. at 0.05% Residual Error 21 15.2782 0.7275 Lack of Fit 11 8.2232 0.7476 1.06 0.468 not significant Pure Error 10 7.0550 0.7055 Total correected 22 20.7774
5 rows with no replicates
En resumen, los pasos a tomar cuando se tienen observaciones replicadas son los siguientes:
1. Obtener la recta de ajuste del modelo, con ANOVA incluyendo valores para la regresión y el error residual. Todavía no hacer la prueba F. 2. Determinar la suma de cuadrados del error puro y dividir la suma de cuadrados del error residual en suma de cuadrados de falta de ajuste y de error puro. 3. Realizar la prueba F para la falta de ajuste. Si no es significativo, no hay razón para dudar de la adecuación del modelo, ir a paso 4. De otra forma parar el modelo y buscar otras formas de mejorar el modelo en base a la observación del comportamiento de los residuos. 4. Examinar los residuos para identificar si no se violan algunas reglas, si todo está bien, usar el cuadrado medio del error residual S2 como un estimado de V(Y) = ?2, realizar la prueba F para toda la regresión, obtener bandas de confianza para la media, evaluar R2, etc.
Con Minitab se obtuvo S = 0.8530 R-Sq = 26.5% R-Sq(adj) = 23.0% Para reducir los errores en el ajuste debidos a las réplicas se obtiene un Máximo de R2 como sigue: SST.corregido ?SSError.puro SST.corregido (2.16) MaxR2 ?
o sea: ? 0.6604 20.777?7.055 20.777 MaxR2 ? De esta forma ya tiene un poco más de sentido el ajuste.
Los datos de los residuos calculados con Minitab se muestran a continuación: Obs X Y Fit SE Fit Residual St Resid
R denotes an observation with a large standardized residual Ver gráficas en páginas siguientes anexas. Residuals vs. the fitted values for Y
Ejemplo 2.4.2 Se presenta otro ejemplo corrido en Minitab (Montgomery, p. 88)con Y = Viscocidad, X = temperatura:
Welcome to Minitab, press F1 for help. Note que se tienen varias réplicas en X = 1.0, 3.3, 4.0, 5.6 y 6.
EL error puro se calculó como sigue: Nivel de X __ ?Y i)2 ?j(Yij Grados de libertad ________________________________________________. 1.0 3.3 4.0 5.6 6.0 Total 1.1858 1.0805 11.2467 1.4341 0.6161 15.5632 1 1 2 2 1 . 7 El error de falta de ajuste se calculó con la fórmula:
SSLOF ? SSE ?SSPE
SSLOF ? 252.9039?15.5632 ? 237.3407
Regression Analysis: Y versus X
The regression equation is Y = 13.2 + 2.13 X
d ??(eu ?eu?1)2 /?eu Predictor Coef SE Coef T P Constant 13.214 2.665 4.96 0.000 X 2.1304 0.5645 3.77 0.002 S = 4.084 R-Sq = 48.7% R-Sq(adj) = 45.3% A sus los cambios Analysis of Variance
Source DF SS MS F P Regression 1 237.48 237.48 14.24 0.002 Residual Error 15 250.13 16.68 Lack of Fit 8 234.57 29.32 13.19 0.001 Significativa Pure Error 7 15.56 2.22 Total 16 487.61
5 rows with no replicates
CONCLUSIÓN: Como F0 = 13.19 es mayor que F.25, 8,7 = 1.70, se rechaza la hipótesis que el modelo encontrado describe los datos adecuadamente.
La pueba de DURBIN-WATSON
La prueba checa si los residuos tienen una dependencia secuencial en la cual cada uno de los errores (residuos) está correlacionado con los anteriores y los posteriores. La prueba se enfoca a las diferencias entre residuos sucesivos como sigue, usando el estadístico de Durbin – Watson: 2 n n
u?2 u?2 (2.17) Donde:
1. 0 ? d ? 4 2.- Si los residuos sucesivos están correlacionados positivamente en serie, d será casi 0. 2. SI los residuos sucesivos están correlacionados negativamente, d será cercano a 4, de tal forma que 4-d será casi 0. 3. La distribución de d es simétrica alrededor de 2. La prueba se realiza como sigue: comparar d o 4-d, la que esté más cercano a cero con dL y dU en la tabla mostrada abajo, si d< dL se concluye que existe una correlación positiva probable; si d>dU se concluye que no hay correlación (se aplica el mismo criterio para 4-d). Si d o 4-d se encuentran entre dL y dU, la prueba es inconclusa. Si se identifica algún tipo de correlación, el modelo debe ser reexaminado.
Puntos de significancia de dL y dU para una línea recta de ajuste. 1% 2.5% 5% n dL dU dL dU dL dU 15 20 25 30 40 50 0.811.07 0.951.15 1.051.21 1.131.26 1.251.34 1.321.40 0.95 1.08 1.18 1.25 1.35 1.42 1.23 1.28 1.34 1.38 1.45 1.50 1.08 1.20 1.29 1.35 1.44 1.50 1.36 1.41 1.45 1.49 1.54 1.59
70 1.431.49 1.51 1.57 1.58 1.64 1.59 1.63 100 150 200 1.56 1.61 1.66 1.56 1.64 1.68 1.65 1.72 1.76 1.69 1.75 1.78 Outliers
Un outlier entre los residuos es aquel que es mucho más grande que el resto en valor absoluto, encontrándose a 3, 4 o más desviaciones estándar de la media de los residuos. El outlier indica un punto que no es común al resto de los datos y debe ser examinado con cuidado. Algunas veces proporciona información vital sobre el proceso.
2.5 TRANSFORMACIONES A UNA LINEA RECTA
A veces se detecta no linealidades a través de la prueba de falta de ajuste descrita en la sección anterior o de diagramas de dispersión y gráficas de los residuos. En algunos casos los datos se pueden transformar para que representen una relación más lineal.
Varias funciones linealizables se encuentran en la página siguiente (fig. 2.13 )3 y sus correspondientes funciones no lineales, transformaciones y formas lineales resultantes se muestran en la tabla 2.1. Dependiendo de la curvatura del comportamiento de la relación entre las variables X y Y, se puede localizar una gráfica parecida en la figura 3.13 y usar su transformación.
Tabla 2.1 Funciones linealizables y su forma lineal correspondiente. Figura 2.13 Función a,b Y ? ?0X ?1 Transformación Y'? logY,X'? logX Forma lineal Y'?log?0 ??1X' c,d e,f Y ? ?0e?1X Y ? ?0 ??1logX Y'? logY X'? log X Y'?ln?0 ??1X Y'? ?0 ??1X' g,h X ?0X ??1 Y ? 1 X 1 Y ,X'? Y'? Y'? ?0 ??1X' Por ejemplo la función:
Y ? ?0e?1X? (2.19) Puede ser transformada de acuerdo a la tabla 2.1 en:
lnY ?ln?0 ??1X ?ln? ó
Y'? ?0'??1X ??'
Se requiere que la transformada del término de error sea normal e independientemente distribuida con media cero y varianza ?2.
Varios tipos de transformaciones recíprocas pueden ser útiles. Por ejemplo: 3 Montgomerey, Douglas C., Introduction to Linear Regression Analysis, John Wiley and Sons, Nueva York, 1992, pp. 90-91
? 1 ? ? X ?
Puede ser linealizada usando la transformación recíproca X = 1/X, quedando como:
Y ? ?0 ??1X'??
Ejemplo 2.3 Un investigador desea determinar la relación entre la salida de Corriente Directa (Y) de un generador de molino de viento y la velocidad del viento (X), para ello colecta 25 pares de datos para ambas variables, utilizando el Minitab para su proceso. Los datos colectados son los siguientes: R denotes an observation with a large standardized residual
Durbin-Watson statistic = 1.21
El valor del estadístico indica que no podemos llegar a conclusiones:
Regression Analysis: Y versus X
The regression equation is Y = 0.131 + 0.241 X
Y Residual Predictor Coef SE Coef T P Constant 0.1309 0.1260 1.04 0.310 X 0.24115 0.01905 12.66 0.000 S = 0.2361 R-Sq = 87.4% R-Sq(adj) = 86.9% 11 10 9 8 7 6 5 4 3 2 S R-Sq R-Sq(adj) 0.237095 87.3% 86.8% Ajustando el modelo con una recta se tiene:
Fitted Line Plot Y = 0.1269 +0.2412 X
2.5
2.0
1.5
1.0
0.5
0.0 2.5 2.0 1.5 1.0 0.5 0.4
0.2
0.0
-0.2
-0.4
-0.6 X
Residuals Versus the Fitted Values (response is Y) Fitted Value
The regression equation is Y = 0.1269 + 0.2412 X
S = 0.237095 R-Sq = 87.3% R-Sq(adj) = 86.8%
Analysis of Variance Source DF SS MS F P Regression 1 8.9183 8.91827 158.65 0.000 Error 23 1.2929 0.05621 Total 24 10.2112
Y Residual 11 10 9 8 7 6 5 4 3 2 2.5
2.0
1.5
1.0
0.5
0.0 S R-Sq R-Sq(adj) 0.127171 96.5% 96.2% El tratar de ajustar los datos, una recta no fue la mejor opción, por lo que se intenta un modelo cuadrático, el cual se muestra a continuación. Fitted Line Plot Y = – 1.166 +0.7236 X – 0.03808 X**2 2.5 2.0 1.5 1.0 0.5 0.2
0.1
0.0
-0.1
-0.2
-0.3 X
Residuals Versus the Fitted Values (response is Y) Fitted Value
Polynomial Regression Analysis: Y versus X
The regression equation is Y = – 1.166 + 0.7236 X – 0.03808 X**2
S = 0.127171 R-Sq = 96.5% R-Sq(adj) = 96.2%
Analysis of Variance Source DF SS MS F P Regression 2 9.8554 4.92770 304.70 0.000 Error 22 0.3558 0.01617 Total 24 10.2112
Sequential Analysis of Variance
Source DF SS F P Linear 1 8.91827 158.65 0.000 Quadratic 1 0.93713 57.95 0.000 A pesar de que la R2 es adecuada, los residuos muestran un comportamiento anormal, por lo que será necesario transformar la variable X. Se observa que los residuos no siguen una distribución normal por lo que es necesario transformar la variable regresora: Transformando la variable X = 1/X se tiene, utilizando Minitab:
Página anterior | Volver al principio del trabajo | Página siguiente |