Descargar

Análisis de regresión


Partes: 1, 2

    edu.red

    Análisis de regresión

    CONTENIDO

    1. REGRESIÓN LINEAL SIMPLE 1.1Introducción 1.2El modelo de regresión lineal simple 1.3Usos y abusos de la regresión

    2. ADECUACIÓN DEL MODELO DE REGRESIÓN LINEAL 2.1Introducción 2.2Prueba de falta de ajuste 2.3Análisis de los residuos 2.4Transformaciones de los datos 2.5Propuesta de estrategia de ajuste del modelo

    3. REGRESIÓN LINELA MÚLTIPLE 3.1El modelo de regresión 3.2Análisis de los residuos 3.3Análisis de cada observación 3.4Propuesta de estrategia de ajuste del modelo

    4. TÓPICOS ADICIONALES 4.1 Calibración 4.2 Variables independientes cualitativas 4.3 Autocorrelación 4.4 Algunos usos interesantes de la regresión

    1. REGRESIÓN LINEAL SIMPLE Ajuste de una línea recta por mínimos cuadrados

    1.1 Introducción Parece que Sir Francis Galton (1822-1911) un antropólogo y metereológo británico fue responsable de la introducción de la palabra “regresión”, mostró que si Y = “estatura de los niños” y X = “estatura de ^ __ __ los padres”, una ecuación de ajuste adecuada era Y ?Y? (X ? X). El artículo de Galton es 3 fascinante como se cuenta en The Story of the Statistics1, el método de mínimos cuadrados aparentemente fue descubierto por Carl Frederick Gauss (1777-1855)2.

    El método de análisis llamado análisis de regresión, investiga y modela la relación entre una variable Y dependiente o de respuesta en función de otras variables de predicción X’s, a través del método de mínimos cuadrados.

    Como ejemplo supóngase que un ingeniero industrial de una embotelladora está analizando la entrega de producto y el servicio requerido por un operador de ruta para surtir y dar mantenimiento a maquinas dispensadoras. El ingeniero visita 25 locales al azar con máquinas dispensadoras, observando el tiempo de entrega en minutos y el volumen de producto surtido en cada uno. Las observaciones se grafican en un diagrama de dispersión (Fig. 1.1), donde claramente se observa que hay una relación entre el tiempo de entrega y el volumen surtido; los puntos casi se encuentran sobre una línea recta, con un pequeño error de ajuste. En general los modelos de regresión tienen varios propósitos como son: 1 Stigler, S.M., The Story of the Statistics, Belknap Press, Harvard University, 1986, pp. 294-299 2 Placket, R.L., “Studies in the history of the probability and Statistics XXIX. The discovery of the method of least squares,”, Bometrika, 59, 1972, pp. 239-251.

    edu.red

    ? ? ? ? Descripción de datos a través de ecuaciones Estimación de parámetros para obtener una ecuación modelo Predicción y estimación. Control. 1.2 El modelo de regresión lineal simple Al tomar observaciones de ambas variables Y respuesta y X predicción o regresor, se puede representar cada punto en un diagrama de dispersión.

    Y * * * *** * *** ** *** X

    Fig. 1.1 Diagrama de dispersión y recta de ajuste

    El modelo de ajuste o modelo de regresión lineal es:

    Y ? ?0 ??1X ?? (1.1) Donde los coeficientes ?0 y ?1 son parámetros del modelo denominados coeficientes de regresión, son constantes, a pesar de que no podemos determinarlos exactamente sin examinar todas las posibles ocurrencias de X y Y, podemos usar la información proporcionada por una muestra para hallar sus estimados b0,b1. El error es difícil de determinar puesto que cambia con cada observación Y. Se asume que los errores tienen media cero, varianza desconocida ?2 y no están correlacionados (el valor de uno no depende del valor de otro). Por esto mismo las respuestas tampoco están correlacionadas.

    Conviene ver al regresor o predictor X como la variable controlada por el analista y evaluada con el mínimo error, mientras que la variable de respuesta Y es una variable aleatoria, es decir que existe una distribución de Y con cada valor de X.

    La media de esta distribución es: E(y| x) ? ?0 ??1x

    y su varianza es:

    V(y | x) ?V(?0 ??1x??) ?? 2 (1.1 a)

    (1.1b) De esta forma la media de Y es una función lineal de X a pesar de que la varianza de Y no dependa de los valores de X.

    1.2.1 Estimación de los parámetros por mínimos cuadrados

    edu.red

    ? ?2?(yi ??0 ? ?1xi) ? 0 ? ?2?(yi ??0 ? ?1xi)xi ? 0 ??xi ??? yi ? ? ? i 1 yixi ? ? i?1 ? n ? i?1 ? ? n ? ? ? i 1 x2i ? ? i?1n ? ? yi ?xi ˆ ˆ El método de mínimos cuadrados se usa para estimar ?0 y ?1 se estimará ?0 y ?1 de manera que la suma de cuadrados de las diferencias entre la observaciones yi y la línea recta sea mínima. Los parámetros ?0 y ?1 son desconocidos y deben ser estimados usando datos de una muestra. Supongamos que se tienen n pares de datos (y1, x1), (y1, x1), (y2, x2),….., (yn, xn) de un experimento o por historia.

    De la ecuación modelo de regresión de la población Y ? ?0 ??1X ??

    Usando los pares de datos se puede establecer el criterio de mínimos cuadrados como:

    n

    i?1 Los estimadores de mínimos cuadrados de ?0 y ?1 por decir ?0,?1debe satisfacer es: ˆ ˆ ˆ ˆ n

    i?1

    n

    i?1 ?S ??0 y ?S ??1 ?0,?1

    ?0,?1 ˆ ˆ Simplificando estas dos ecuaciones se obtienen las ecuaciones de mínimos cuadrados: n n

    i?1 i?1 n n n

    i?1 i?1 i?1

    La solución a las ecuaciones normales anteriores: ?0 ? y ??1x n n ? n ?? n ?

    ??xi ? 2 ˆ ?1 ? Donde los promedios para X y para Y son los siguientes:: y ? 1 n n i?1 x ? 1 n n i?1 ˆ ˆ Aplicando el método de mínimos cuadrados del error, se obtiene el modelo que nos da un valor estimado Y en función de X, denominado ecuación de predicción o de regresión lineal, como sigue:

    b0 ? ?0 b1 ? ?1

    edu.red

    Y ? b0 ?b1X ?X Y ?X (1.2) ^

    Donde: ? Sxy Sxx i i

    2 i __ __ ?n X Y

    __ 2 ?n X n

    i?1 n

    i?1 b1 ? (1.3) __ __ b0 ?Y?b1 X

    por tanto:

    ^ __ __ Y ?Y?b1(X ? X) (1.4)

    (1.5) __ __ __ Cuando X ? X se tiene el punto (X,Y) que se encuentra en la línea ajustada y representa el centro de gravedad de los datos.

    Ejemplo 1.1 Se realizaron 25 observaciones de la variable Y y X como sigue:

    edu.red

    Y ?13.6?0.0798X 11.08 28.6 Haciendo cálculos con el paquete Minitab con X en la columna C2 y Y en la columna C1 se tiene:

    Regression Analysis: C1 versus C2 The regression equation is C1 = 13.6 – 0.0798 C2

    Predictor Coef SE Coef T P Constant 13.6230 0.5815 23.43 0.000 C2 -0.07983 0.01052 -7.59 0.000 S = 0.8901 R-Sq = 71.4% R-Sq(adj) = 70.2% (1.6) Por lo anterior la ecuación de regresión obtenida es: ^

    Después de obtener esta ecuación, surgen algunas preguntas: – – – ¿qué tan bien ajusta los datos esta ecuación? ¿el útil el modelo para hacer predicciones? ¿se viola alguna condición como varianza constante y no correlación en los errores, de ser así que tan seria es? Todo esto debe ser aclarado antes de usar el modelo.

    edu.red

    ? YY ??Yi ? ??Yi2 ? ? i?1 ? SXY ??X iYi ? ?X i?Yi ei ?Yi ?Y i es el residuo que expresa la diferencia entre el valor observado y el valor Y ? b0 ?b1x 1.2.2 Análisis de Varianza

    El análisis de varianza es una herramienta que sirve para probar la adecuación del modelo de regresión, para lo cual es necesario calcular las sumas de cuadrados correspondientes.

    La desviación estándar S corresponde a la raíz cuadrada del valor de MSE o cuadrado medio residual. S S 2 ? ?b1SXY n?2 SSE n?2 (1.7) Donde: n SYY 2 ? n ? i?1 n (1.8) n n n

    i?1 i?1 n

    i?1 (1.9) La expresión ^ (1.10) estimado por la ecuación de predicción.

    Donde:

    ^ __ ^ __ Yi ?Y i ?Yi ?Y?(Y i?Y)

    Y

    Yi __ Yi ?Y ^

    Yi _ Y ei

    línea ajustada ^ X Xi

    Fig. 1.2 Errores involucrados en la recta de ajuste

    edu.red

    ?Y)2 ??(Y i?Y)2 ??(Yi ?Y i)2 SXY ? (?(Xi ? X)Yi)2 SXX ??(Xi ? X)2 ??Xi2 ?n X La cantidad __ (Yi ?Y) es la desviación de la observación i-ésima respecto a la media. Por otra parte: __ ^ __ ^ ?(Yi (1.11) Suma de cuadrados = Suma de cuadrados + Suma de cuadrados respecto a la media de la regresión del error o residuos De tal forma que la tabla de análisis de varianza queda como:

    Tabla de Análisis de Varianza . Fuente df SS MS = SS/df Fc Regresión 1 SSR ?b1SXY MSREG MSreg/s2 =MSreg/MSE Residual n-2 SSE ? SSYY ?b1SXY S2=MSE=SSE/n-2 __________________________________________________________. SYY Total corregido n-1

    donde: __ __ 2 (1.12)

    (1.13) __ 2

    Obteniéndose con el Minitab MS F P 45.592 57.54 0.000 0.792 Source DF Regression 1 Residual Error 23 Total corrected 24 SS 45.592 18.223 63.816 El estadístico F se calcula como F = MSEREG / S2 y se compara con la F de tablas con (1, n-2) grados de libertad y área en 100(1-?)%, para determinar si el parámetro ?1 es significativo que es el caso de Fcalc. > Ftablas.

    En este caso Fc = 45.5924 / 0.7923 = 57.24 y F de tablas F(1, 23, 0.95) es igual a 4.28, por tanto se rechaza H0 aceptando que existe una ecuación de regresión.

    El área de la cola de Fc está descrita por el valor de p que debe ser menor o igual al valor de ?, en este caso es casi cero. 1.2.3 Intervalos de confianza para ?0,?1 En base al error estándar para los parámetros se tiene:

    edu.red

    ?1 ? ? ? ?X i2 ? ? ? 2 ? ? ?n?(X i ? X) ? ? ?0?ta/2,n?2 ?1 ? X ? ? b0 ?t(n ?2,1? ?) ?X i2 ? 2 ? ? ?n?(X i ? X) ? ? ?1?ta/2,n?2 t(n?2,1? ?).S ? S 1/2 __ ? ? ? ? ? ? __ 2 X SXX

    S SXX ? se(b0) ? MSE? ? ?n

    MSE se(b1) ? ? SXX (1.14)

    (1.15) Del ejemplo, como s = 0.7963 y SXX = 7154.42 0.792 7154.42 ? 0.0105 se(b1) ? ?0,?1, considerando que las observaciones y los errores El intervalo de confianza 100 (1 – ?)% para siguen un comportamiento normal, es:

    Y Para el coeficiente ?o se tiene: ? MSE? ? ?n __ 2 ? ? SXX ? ^ (1.16) S 1/2 __ 1 2 ? ? ? ? (1.16a) Para el caso del coeficiente Beta 1:

    El error estándar es: ˆ MSE SXX MSE SXX se(?1) ?

    ^ (1.17ª) b1 ? 1 2 __ (X i ? X)2 (1.17) Suponiendo ? = 0.05, t(23,0.975) = 2.069, los límites de confianza para el parámetro ?1 son: -0.798 ? (2.069)(0.0105) o sea -0.798 ? 0.0217 y ?1 se encuentra en el intervalo (-0.1015, -0.0581).

    Para el caso de sigma, si los errores están distribuidos normalmente y son independientes, la distribución del estadístico,

    edu.red

    P??1 2 ?? /2,n?2 ? ? ? ?? 2/2,n?2? ?1?? ?? /2,n?2 E(Y | X0) ?Y0 ? b0 ?b1X 0 Y0?ta/2,n?2 ? ? ? ? ? V(?) ?? ?1? ? (n?2)MSE/? 2

    es Chi-cuadrada con n – 2 grados de libertad y de esta forma: ? ? ? ? (n?2 )MSE 2 Por consecuencia un intervalo de confianza 100 (1 – ? ) % en ?2 es: 2 (n?2 )MSE 2 (n?2 )MSE ?1?? /2,n?2 ?? 2 ? (1.18) 1.2.4 Estimación del intervalo para la media de la respuesta

    Una aplicación mayor del análisis de regresión es la estimación de la media de la respuesta E(Y) para un valor particular de la variable regresora X. El valor esperado de la respuesta Y media para un cierto valor de X = X0 es: ^ (1.19) Para obtener un intervalo de confianza con 100(1 – ? )% para el coeficiente ?1 se aplica la fórmula siguiente: ^ (x0 ? x)2 ? Sxx ? MSE ?1 SXX ?n (1.20b) Ver gráfica anterior del ejemplo.

    1.2.5 Predicción de nuevas observaciones Esta es otra de las aplicaciones del modelo de regresión, predecir nuevas observaciones Y correspondientes a un nivel específico de la variable regresora X. La banda de predicción es más ancha dado que depende tanto del error del modelo de ajuste y el error asociado con observaciones futuras ˆ (Y0 ?Y0). El intervalo es mínimo en __ X 0 ? X y se amplia conforme se incrementa la diferencia entre __ X 0 ? X . ˆ La variable aleatoria,

    ? ?Y0 ?Y0

    Está normalmente distribuida con media cero y varianza: ? ? ? ? 2 __ (X 0 ? X)2 ? SXX ? ? 1 n

    edu.red

    ? ?Y0 ?Y ˆ0 ?t? /2,n?2 MSE?1? ? MSE? ? ?Y0 ?Y ˆ0 ?t? /2,n?2 MSE? ? t ? ? Si se usa ˆ Y0 para predecir a Y0 entonces el error estándar de ? = ˆ Y0 – Y0, es el estadístico apropiado para establecer un intervalo de predicción probabilístico, en el caso de un intervalo 100 (1 – ? ) % sobre una observación futura en X 0 se tiene: ? ? ? ? ? __ (X 0 ? X)2 ? SXX ? ? 1 n __ (X 0 ? X)2 ? SXX ? ? 1 n ? MSE?1? ? ? ˆ Y0 ?t? /2,n?2 (1.21 Se puede generalizar para encontrar un intervalo de predicción del 100(1-?) porciento para la media de m observaciones futuras en X = Xo. Sea Ymedia la media de las observaciones futuras en X = Xo. El intervalo de predicción estimado es: ? ? ? ? __ (X0 ? X)2 ? SXX ? ? 1 n ? 1 ?m ? __ (X0 ? X)2 ? SXX ? ? 1 n ? 1 ?m ? ˆ Y0 ?t? /2,n?2 1.2.6 Pruebas de hipótesis para la pendiente e intersección

    Prueba de Hipótesis para Ho:?0 = ?10 contra H1:?0 ? ?10 Calculando el estadístico t, considerando que ?10 = 0, se tiene: b0 se(b0) t ? (1.22) Probar la hipótesis para b0 no tiene interés práctico. Ahora para probar la significancia de b1 se tiene: SXX b1 MSE t0 ? para (? /2,n?2) grados de libertad (1.23) Si t0 ? t? /2,n?2 se rechaza la hipótesis nula, indicando que ?1 es significativo y se tiene regresión ? ?7.60 ? 0.798 0.0105 lineal.

    Del ejemplo: b1 se(b1) Como t ? 7.60 excede el valor crítico de t = 2.069, se rechaza Ho (o sea el valor de p < < 0.05) .Por tanto este coeficiente es significativo.

    Es importante notar que el valor de F = t2.

    La salida del Minitab es como sigue: Predictor Coef SE Coef Constant = b0 13.6230 0.5815 T P 23.43 0.000

    edu.red

    n(? ˆ0 ? ?0)2 ? 2?xi(? ˆ0 ? ?0)(? ˆ1 ? ?1)??x2i(? ˆ1 ? ?1) ?1 E(Y Xi) ?YXi? ? MSE? ? ? ? ? ? yxi ?YXi? ? MSE? ?1? ? ? C2 = b1 -0.07983 0.01052 -7.59 0.000 1.2.7 Inferencia simultanea para los parámetros del modelo

    Para una estimación conjunta de Beta0 y Beta1 en una región donde estemos seguros con 100(1-alfa) porciento de que ambos estimados son correctos es: n n

    i?1 i?1 2MSE ? F?,2,n?2 , 1.2.8 Estimación simultanea de la respuesta media La estimación simultanea de la respuesta media es: Es posible construir m-intervalos de confianza de la respuesta media de un conjunto de m-valores específicos X, vgr. X1, X2, …., Xm, que tengan un coeficiente de confianza conjunta de la menos 100(1-alfa) porciento.

    Se puede utilizar el módulo t de Scheffé: ? ? u?,2,n?2 Donde u?,2,n?2 es el punto de la cola superior alfa de la distribución del valor máximo absoluto de dos variables aleatorias t-student cada una basada en n-2 grados de libertad. Estos dan intervalos más cortos. Para el caso de alfa = 0.10, m=2,n=18 se tiene de tablas (A.8): t?/(2m),n?2 ?t0.02518 ? 2.101 u?,m,n ?u0.10,2,18 ? 2.082 La Delta de Boferroni como sigue: ? ?(2F ?,2,n?2)1/2 ?(2F0.10,2,18)1/2 ?(6.02)1/2 ? 2.454 ?n ^ (xi ? x)2 ? Sxx ? Note que los intervalos del máximo módulo t son más angostos que los de Bonferroni. Sin embargo cuando m > 2 los intervalos de máximo módulo t se siguen ampliando mientras que los de Bonferroni no dependen de m.

    1.2.9 Predicción de nuevas observaciones El conjunto de intervalos de predicción para m nuevas observaciones en los niveles X1, X2,…, Xm que tienen un nivel de confianza de al menos (1-alfa) es: ? ? ^ (xi ? x)2 ? Sxx ? 1 n

    edu.red

    ? ?? y ?? ?2 ? x ??2 ? ?? ? x??2 ? ? y ??1 ? ?? ? ? ? ?? ? ? ? ?2p? ? ? ? ?? ? ? ? ?? exp?? ?? 2(1? p ) ?? ?1 ? ? ? 2 ? ? ?1 ? ? ? 2 ? ??? exp?? ? ? ? ? ? ? ? 2? ? ? ? ?1 ?1 ? ? b1 ? ? ? YY ? ? ?(Y?Y) ?(Y ?Y) 1.2.10 Correlación

    Las discusiones anteriores de análisis de regresión han asumido que X es una variable controlable medida con un error despreciable y que Y es una variable aleatoria. Muchas aplicaciones de análisis de regresión involucran situaciones donde tanto X como Y son variables aleatorias y los niveles de X no pueden ser controlados. En este caso se asume que las observaciones (Xi, Yi), i=1, 2,…,n son variables aleatorias distribuidas conjuntamente. Por ejemplo suponiendo que se desea establecer la relación entre los refrescos vendidos y la temperatura del día. Se asume que la distribución conjunta de Y y X es la distribución normal divariada, que es: 2 2 2 2 1 1 1 2??1? 2 f (x, y) ? Donde ?1 y ?12 corresponden a la media y la varianza de Y, y ?2 y ?22 corresponden a la media y la varianza de X y ?12 ?1? 2 ? ? ? E(y ??1)(x??2) ?1? 2 Es el coeficiente de correlación entre Y y X. ?12 es la covarianzade Y y X. La distribución condicional de Y para un valor de X es: 1 2??12 ? 1? y ? ?0 ? ?1x?2? ?12 f (y x) ? ?1 ? 2 Donde: ?0 ? ?1 ??2?

    ? 2 2 ? 212 ??1 (1??2) La correlación es el grado de asociación que existe las variables X y Y, se indica por el estadístico ? cuyo estimador es el coeficiente de correlación de la muestra r ó rxy. Donde: SXY SXX SYY r ? (1.24) r 1/2 ? ? ? S ? SXX (1.25) Un estadístico útil es el valor del ajuste de la regresión R2, coeficiente de determinación que se define como: r = rxy = (signo de b1)R (1.26) i SSE SYY SSR Syy ? ? ?1? 2

    2 ^ __

    __ (SS.de.la.regresión.por.b0) (SSTotal.corregido.para.la.media) R2 ? (1.27)

    Partes: 1, 2
    Página siguiente