Y ? ?0X ?1 TRANSFORMACIONES A UNA LINEA RECTA,POR DR. PRIMITIVO REYES AGUILAR A veces se detecta no linealidades a través de la prueba de falta de ajuste descrita en la sección anterior o de diagramas de dispersión y gráficas de los residuos. En algunos casos los datos se pueden transformar para que representen una relación más lineal.
1 funciones no lineales, transformaciones y formas lineales resultantes se muestran en la tabla 2.1. Dependiendo de la curvatura del comportamiento de la relación entre las variables X y Y, se puede localizar una gráfica parecida en la figura 3.13 y usar su transformación.
Tabla 2.1 Funciones linealizables y su forma lineal correspondiente. Figura 2.13 Función a,b Transformación Y'? logY,X'? log X Forma lineal Y'?log?0 ??1X' c,d e,f Y ? ?0e?1X Y ? ?0 ??1logX Y'? logY X'? log X Y'?ln?0 ??1X Y'? ?0 ??1X' g,h X ?0X ??1 Y ? 1 X 1 Y ,X'? Y'? Y'? ?0 ??1X' Por ejemplo la función:
Y ? ?0e?1X? (2.19) Puede ser transformada de acuerdo a la tabla 2.1 en:
lnY ?ln?0 ??1X ?ln? ó
Y'? ?0'??1X ??'
Se requiere que la transformada del término de error sea normal e independientemente distribuida con 2
Varios tipos de transformaciones recíprocas pueden ser útiles. Por ejemplo:
? 1 ? ? X ?
Puede ser linealizada usando la transformación recíproca X = 1/X, quedando como:
Y ? ?0 ??1X'??
Ejemplo 2.3 Un investigador desea determinar la relación entre la salida de Corriente Directa (Y) de un generador de molino de viento y la velocidad del viento (X), para ello colecta 25 pares de datos para ambas variables, utilizando el Minitab para su proceso. Los datos colectados son los siguientes: 1 Montgomerey, Douglas C., Introduction to Linear Regression Analysis, John Wiley and Sons, Nueva York, 1992, pp. 90-91
R denotes an observation with a large standardized residual
Durbin-Watson statistic = 1.21
El valor del estadístico indica que no podemos llegar a conclusiones:
Regression Analysis: Y versus X The regression equation is Y = 0.131 + 0.241 X
Predictor Coef SE Coef T P Constant 0.1309 0.1260 1.04 0.310 X 0.24115 0.01905 12.66 0.000 S = 0.2361 R-Sq = 87.4% R-Sq(adj) = 86.9% Ajustando el modelo con una recta se tiene:
Y Residual 11 10 9 8 7 6 5 4 3 2 2.5
2.0
1.5
1.0
0.5
0.0 S R-Sq R-Sq(adj) 0.237095 87.3% 86.8% Fitted Line Plot Y = 0.1269 +0.2412 X 2.5 2.0 1.5 1.0 0.5 0.4
0.2
0.0
-0.2
-0.4
-0.6 X
Residuals Versus the Fitted Values (response is Y) Fitted Value
The regression equation is Y = 0.1269 + 0.2412 X S = 0.237095 R-Sq = 87.3% R-Sq(adj) = 86.8%
Analysis of Variance Source DF SS MS F P Regression 1 8.9183 8.91827 158.65 0.000 Error 23 1.2929 0.05621 Total 24 10.2112
El tratar de ajustar los datos, una recta no fue la mejor opción, por lo que se intenta un modelo cuadrático, el cual se muestra a continuación.
Y Residual 11 10 9 8 7 6 5 4 3 2 2.5
2.0
1.5
1.0
0.5
0.0 S R-Sq R-Sq(adj) 0.127171 96.5% 96.2% Fitted Line Plot Y = – 1.166 +0.7236 X – 0.03808 X**2 2.5 2.0 1.5 1.0 0.5 0.2
0.1
0.0
-0.1
-0.2
-0.3 X
Residuals Versus the Fitted Values (response is Y) Fitted Value
Polynomial Regression Analysis: Y versus X The regression equation is Y = – 1.166 + 0.7236 X – 0.03808 X**2
S = 0.127171 R-Sq = 96.5% R-Sq(adj) = 96.2%
Analysis of Variance Source DF SS MS F P Regression 2 9.8554 4.92770 304.70 0.000 Error 22 0.3558 0.01617 Total 24 10.2112
Sequential Analysis of Variance Source DF SS F P Linear 1 8.91827 158.65 0.000 Quadratic 1 0.93713 57.95 0.000
2 será necesario transformar la variable X. Se observa que los residuos no siguen una distribución normal por lo que es necesario transformar la variable regresora:
Y Transformando la variable X = 1/X se tiene, utilizando Minitab: El modelo queda como: 0.40 0.35 0.30 0.25 0.20 0.15 0.10 2.5
2.0 1.5
1.0
0.5
0.0 S R-Sq R-Sq(adj) 97.7% Regression 95% CI 95% PI 0.0993273 97.8% Fitted Line Plot Y = 2.987 – 7.005 1/X 1/X
Regression Analysis: Y versus 1/X The regression equation is Y = 2.99 – 7.00 1/X
Percent Residual Predictor Coef SE Coef T P Constant 2.98664 0.04763 62.71 0.000 1/X -7.0046 0.2202 -31.81 0.000 S = 0.0993273 R-Sq = 97.8% R-Sq(adj) = 97.7%
Analysis of Variance Source DF SS MS F P Regression 1 9.9843 9.9843 1012.00 0.000 Residual Error 23 0.2269 0.0099 Total 24 10.2112
Unusual Observations
Obs 1/X Y Fit SE Fit Residual St Resid 20 0.182 1.5010 1.7131 0.0201 -0.2121 25 0.400 0.1230 0.1848 0.0490 -0.0618 -2.18R -0.72 X 0.2 0.1 0.0 -0.1 -0.2 1 R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence.
Durbin-Watson statistic = 1.52151
Como se observa ahora los residuos muestran un comportamiento normal, indicando que el modelo es adecuado. Normal Probability Plot of the Residuals (response is Y) 99
95 90 80 70 60 50 40 30 20 10 5 Fitted Value
2.5 TRANSFORMACIONES PARA ESTABILIZAR LA VARIANZA 2.5 2.0 1.5 1.0 0.5 0.0 0.15 0.10 0.05 0.00 -0.05 -0.10 -0.15 -0.20 -0.25 Residual
Residuals Versus the Fitted Values (response is Y)
Relación de ? a E(Y) ? ?? ?E(Y)?1?E(Y)?…………….Y'? sin Y La suposición de varianza constante es un requerimiento básico del análisis de regresión, una razón común de violación a de este supuesto es cuando la variable de respuesta Y sigue una distribución de probabilidad en la cual la varianza esta relacionada con la media. Para estos casos se utiliza transformaciones estabilizadoras de la varianza. Si la distribución de Y es de Poisson, podemos relacionar Y'? Y contra X ya que la varianza de Y es independiente de la media. Si la variable de respuesta Y es una proporción con valores entre [0,1] y la gráfica de residuos tiene el patrón de doble cresta, entonces se usa la transformación Y'? sin?1 Y .
Otras transformaciones se muestran abajo en la tabla 2.2:
Tabla 2.2 Relaciones para transformar la varianza 2 Transformación Datos de Poisson Proporciones binomiales ? 2 ?? ?constante…………………………Y'?Y ? 2 ?? ?E(Y)……………………………Y'? Y 2 ?1 ? 2 ?? ??E(Y)?2…………………………Y'?ln(Y) ? 2 ?? ??E(Y)?3………………………Y'?Y ?1/2 La magnitud de la transformación, depende del grado de curvatura que induce. La selección de la transformación se hace en base a la experiencia o de forma empírica. A continuación se presenta un ejemplo para este análisis.
Ejemplo 2.4 Se hizo un estudio entre la demanda (Y) y la energía eléctrica utilizada (X) durante un cierto periodo de tiempo, procesando los datos con Minitab se obtuvo lo siguiente:
Y X 2000 1500 1000 500 10
8
6
4
2
0 S R-Sq R-Sq(adj) 1.46163 66.4% 64.9% The regression equation is
Y = – 0.7038 + 0.003464 X
S = 1.46163 R-Sq = 66.4% R-Sq(adj) = 64.9%
Analysis of Variance
Source DF SS MS F P Regression 1 97.094 97.0943 45.45 0.000 Error 23 49.136 2.1364 Total 24 146.231
Unusual Observations Obs X Y Fit SE Fit Residual St Resid 8 2189 9.500 6.880 0.651 2.620 2.00R
R denotes an observation with a large standardized residual.
Durbin-Watson statistic = 1.49454
Fitted Line: Y versus X
Fitted Line Plot Y = – 0.7038 +0.003464 X
Percent Standardized Residual 3 2 1 0 -1 -2 -3 99
95 90 80 70 60 50 40 30 20 10 5 1 Normal Probability Plot of the Residuals (response is Y) 7 6 5 4 3 2 1 0 2
1
0
-1
-2 Standardized Residual
Residuals Versus the Fitted Values (response is Y) Fitted Value Notar que y es la cuenta de kilowatts utilizados por un cliente en cierta hora, se observa que la varianza aumenta conforme aumenta la media de los datos indicando que sigue el modelo de Poisson, por tanto se puede transformar con la raiz cuadrada de Y. como sigue:
Raiz(Y) X 2000 1500 1000 500 S R-Sq R-Sq(adj) 0.454426 64.3% 62.7% Regression Analysis: Raiz(Y) versus X
The regression equation is Raiz(Y) = 0.4717 + 0.001027 X
S = 0.454426 R-Sq = 64.3% R-Sq(adj) = 62.7%
Durbin-Watson statistic = 1.65249
Fitted Line Plot Raiz(Y) = 0.4717 +0.001027 X
3.0
2.5
2.0
1.5
1.0
0.5
Percent Residual 1.0 0.5 0.0 -0.5 -1.0 99
95 90 80 70 60 50 40 30 20 10 5 1 Normal Probability Plot of the Residuals (response is Raiz(Y)) 3.0 2.5 2.0 1.5 1.0 1.0
0.5
0.0
-0.5 Residual
Residuals Versus the Fitted Values (response is Raiz(Y)) Fitted Value
Se observa una mejor distribución normal de los residuos por lo que el modelo es adecuado. A continuación se muestra el análisis de varianza para el modelo:
Analysis of Variance
Source DF SS MS F P Regression 1 8.5401 8.54008 41.36 0.000 Error 23 4.7496 0.20650 Total 24 13.2897
3. REGRESIÓN LINEAL MÚLTIPLE
3.1 Modelos de Regresión Múltiple
Asumiendo que N observaciones de la respuesta se puedan expresar por medio de un modelo de primer orden Yu ? ?0 ??1Xu1 ??2Xu2 ?…….??kXuk ??u (3.1)
En la ecuación 3.1 Yu denota la respuesta observada en el intento u; Xui representa el nivel del factor i en el intento u; las betas son parámetros desconocidos y ?u representa el error aleatorio en Yu. Se asume que los errores ?u tienen las características siguientes:
2 2. Son estadísticamente independientes. 3. Están distribuidos en forma normal.
3.2 Estimación de los parámetros del modelo El método de mínimos cuadrados selecciona como estimados para los parámetros desconocidos beta, los valores b0, b1, …., bk respectivamente, los cuales minimizan la cantidad:
N
u?1
Y son las soluciones a un conjunto de (k +1) ecuaciones normales.
Sobre N observaciones el modelo de primer orden puede expresarse en forma matricial como: Y = X ? + ? = [1 : D] ? + ? (3.2) Y es un vector N x 1. X es una matriz de orden N x (k + 1), donde la primera columna es de 1s. ? es un vector de orden (k + 1) x 1. ? es un vector de orden N x 1. D es la matriz de Xij con i = 1, 2, …, N; j = 1, 2, ……, k
Deseamos encontrar el vector de estimadores de mínimos cuadrados b que minimicen: n
i?1 Que puede ser expresada como: S(?) ?Y'Y ??'X'Y ?Y'X? ??'X'X? Como ?'X'Y es una matriz 1×1 o un escalar y su transpuesta (?'X'Y)'?Y'X? es el mismo escalar, se tiene: (3.3) S(?) ?Y'Y ?2?'X'Y ??'X'X'?
Los estimadores de mínimos cuadrados deben satisfacer: ? ?2X'Y ?2X'Xb ? 0 b ?S ?? (3.4) Que se simplifica a las ecuaciones normales de mínimos cuadrados:
XX b = X Y
Los estimadores de mínimos cuadrados b de los elementos ? son: b = (XX) -1 XY (3.5) El vector de valores ajustados Y ? Xbse puede expresar como:
Página siguiente |