Transformaciones a una linea recta (página 2)
Enviado por Ing.+ Licdo. Yunior Andrés Castillo Silverio
Var(b) = C = (XX) ? La covarianza del elemento bi y bj de b esCovar(cij) ? cij? . Y(x) ? x' p b Var(Y(x)) ?Var(xpb) ? x' p (X'X)?1xp? 2 ru ?Yu ?Y(xu),u ?1,2,…,N Y ? Xb ? X(X'X)?1X'Y ? Hy (3.5) Donde la matriz H [n x n] se denomina la matriz sombrero ya que mapea el vector de valores observados dentro del vector de valores ajustados o predichos. Como principales características de los estimadores b se tienen:
La matriz de varianza y covarianza de el vector de estimados b es: -1 2 (3.6) El elemento (ii) de esta matriz cii? 2 ?Var(bi) es la varianza del elemento i de b. El error estándar de bi es la raíz cuadrada positiva de la varianza de bi o sea:
se.bi ? cii? 2 (3.7) 2 (3.8) Si los errores están normalmente distribuidos, entonces b se dice que está distribuido como:
b ? N(?,(X'X)?1? 2)
Sea xp un vector (1 x p) vector cuyos elementos corresponden a una fila de la matriz X, p = k + 1, entonces en la región experimental el valor de predicción de la respuesta es: ^
Una medida de la precisión de la predicción Y(X) se puede expresar como:
^ (3.9)
(3.10) RESIDUOS Los residuos se definen como la diferencia entre los valores reales observados y los valores predichos para estos valores de respuesta usando el modelo de ajuste y predicción, o sea: ^
Si se obtienen valores para los N intentos entonces en forma matricial: r ?Y ? Xb ?Y ?HY ?(1?H)Y (3.11)
(3.12) los residuos tienen las propiedades siguientes:
1. 1r = 0, donde 1 es un vector (1 x n) de 1s. 2. Y(X)'r ? 0 3. Xr = 0
ESTIMACIÓN DE ? Para un modelo con p parámetros y teniendo N observaciones (N > p), la varianza se estima como sigue:
La suma de cuadros de los residuos es:
n
i?1 Como e = Y X b, se tiene:
SSE ? (Y ? Xb)'(Y ? Xb) ?Y'Y ?b'X'Y ?Y'Xb?b'X'Xb ?Y'Y ?2b'X'Y ?b'X'Xb (3.13)
Como XXb = XY, se transforma en: SSE ?Y'Y ?b'X'Y (3.14) La suma residual de cuadrados tiene n-p grados de libertad asociado con el ya que se estiman p parámetros en el modelo de regresión. El cuadrado medio de los residuos es: SSE N ? p s2 ? MSE ? (3.15) 3.3 Intervalos de confianza para los coeficientes de la regresión Asumiendo que los errores son independientes y distribuidos normalmente con media cero y 2 distribuidas. Cada uno de los estadísticos: ,…j ? 0,1,…,k bj ? ? j S 2C jj (3.16) 2 ecuación (3.15). Por tanto un intervalo de confianza 100(1 – ? )% para el coeficiente de regresión ?j, para j = 0, 1, …., k es: bj ?t? /2,n?pse(bj) ? ? j ?bj ?t? /2,n?pse(b j)
Donde se(bj) es el error estándar del coeficiente de regresión bj. se(bj) ? S 2C jj (3.17)
(3.18) Siendo Cjj el j-ésimo elemento de la matriz (XX )-1 . ? ? 3.3.1 Intervalos de confianza para la respuesta media en un punto en particular Se puede construir un intervalo de confianza en la respuesta media de un punto en particular, tal como X01, X02, X03,…….., X0K. Definiendo el vector X0 como: ?1 ? ? ? 01 ? X 0 ? ?X 02 ? ? ? ?….. ? ?X 0K ?
El valor ajustado en este punto es:
SST ??(Yu ?Y)2 ^ SSR ??(Y(xu)?Y)2 con p (parámetros) 1 grados de libertad ?? Y0 ? X'0b
Con varianza:
Var(Y0) ? S2X'0 (X'X)?1X0
Por tanto el intervalo de confianza para el 100( 1 – ? ) % es:
Y0 ?t? /2,n?p S2X'0 (X'X)?1X0 ?Y0 ?Y0 ?t? /2,n?p S2X'0 (X'X)?1X0 (3.19)
(3.20)
(3.21) 3.4 Prueba de Hipótesis en Regresión múltiple Entre las pruebas importantes a realizar se encuentra la prueba de siginificancia de la regresión, la prueba de coeficientes individuales de la regresión y otras pruebas especiales. A continuación se analiza cada una de ellas.
3.6.1 Prueba de significancia para la regresión La prueba de significancia de la regresión es probar para determinar si hay una relación lineal entre la respuesta Y y cualquiera de las variables regresoras Xis, la hipótesis apropiada es: H0 :?1 ? ?2 ?….? ?k ?0 (3.22) H0 😕 j ?0…….para.al.menos.una.j
El rechazo de H0 implica que al menos alguno de los regresores contribuye significativamente al modelo. El método es una generalización del utilizado en la regresión lineal. La suma total de cuadrados Syy se divide en suma de cuadrados debidos a la regresión y la suma de cuadrados de los residuos, o sea:
SYY ? SST ? SSR?SSE
Para la prueba de la hipótesis se utiliza el estadístico F0 como sigue: MSR MSE ? SSR/k SSE/(n?k ?1) F0 ? con k = No. de variables regresoras (3.23) La suma de cuadrados totales es: N __
u?1 con N-1 grados de libertad (3.24) (3.25) La suma de cuadrados debidos a la regresión es:
N __
u?1
La suma de cuadrados del error o de los residuos es:
^ SSE ??(Yu ?Y(xu))2 con (N-1) (p 1) grados de libertad (3.26) N
u?1
En forma matricial se tiene: (1'Y)2 N SST ?Y'Y ? (3.27) (1'Y)2 N SSR ? b'X'Y ? (3.28) (3.29) SSE ?Y'Y ?b'X'Y
La tabla de ANOVA para la significancia de la regresión queda como:
Fuente de variación SS df MS F0 . MSR MSE MSR/MSE . Regresión Residuos Total SSR SSE SST K n k-1 n 1 Para probar la hipótesis de existencia del modelo, se tiene:
H0 :?1 ? ?2 ?…? ?k ?0
Ha :??i ?0,i ?1,2,…,k
Se calcula el estadístico F0 como: MSR MSE SSR/(p?1) SSE/(N ? p) ? F0 ? (3.30) Se compara el valor de F con el de tablas para F?,p-1,N-p el cual es la parte superior de la distribución F, si F calculada excede a F de tablas se infiere que la variación explicada por el modelo es significativa.
2 de la media Y explicada por el modelo de ajuste. Se expresa en porcentaje. SSR SST R2 ? (3.31) 3.4.2 Prueba de los coeficientes individuales de la regresión Con frecuencia estamos interesados en probar hipótesis sobre los coeficientes de regresión individuales. Por ejemplo el modelo podría ser más efectivo con la inclusión de regresores adicionales o con la eliminación de una o más variables regresoras presentes en el modelo.
??1,?1,?1,?1? ??1,?1,?1,?1? ??1,?1,?1,?1? ??1,?1,?1,?1? Al agregar una variable al modelo, siempre incrementa la suma de cuadrados de la regresión y decrementa la suma de cuadrados de los residuos, sin embargo también incrementa la varianza de los valores estimados Yest., de tal forma que se debe tener cuidado en incluir sólo los regresores que mejor expliquen la respuesta. Por otra parte, al agregar un regresor no importante puede incrementar el cuadrado medio de los residuos, lo que decrementa la utilidad del modelo. La hipótesis para probar la significancia de cualquier coeficiente individual de la regresión ?j es: H0 😕 j ? 0 (3.32) H1 😕 j ? 0
Si no se rechaza H0, indica que el regresor Xj puede ser excluido del modelo. El estadístico de prueba para esta hipótesis es: bj se(bj) t0 ? (3.33) La hipótesis nula es rechazada si t0 ?t? /2,n?k?1. Esta es una prueba parcial o marginal de la contribución de Xj dados los otros regresores en el modelo.
3.4.3 Caso especial de columnas ortogonales en X Si dentro de la matriz X si las columnas de X1 son ortogonales a las columnas en X2, se tiene que X1X2 = X2 X1 = 0. Entonces los estimadores de mínimos cuadrados b1 y b2 no dependen si está o no está en el modelo alguno de los otros regresores, cumpliéndose: SSR(?2) ? SSR(?1)?SSR(?2) (3.34) 3
Y ? ?0 ??1X1 ??2X2 ??3X3 ??
Donde la matriz X es la siguiente: ??1,?1,?1,?1? ? ? ??1,?1,?1,?1? ? ? ??1,?1,?1,?1? ? ? ??1,?1,?1,?1? ? ? X ? En este caso, SSR(?j), j = 1, 2, 3, mide la contribución del regresor Xj al modelo, independientemente de cualquier otro regresor esté incluido en el modelo de ajuste.
Ejemplos: Ejemplo 3.1 Un embotellador está analizando las rutas de servicio de máquinas dispensadoras, está interesado en predecir la cantidad de tiempo requerida por el chofer para surtir las máquinas en el local (Y). La actividad de servicio incluye llenar la máquina con refrescos y un mantenimiento menor.
Se tienen como variables el número de envases con que llena la máquina (X1) y la distancia que tiene que caminar (X2). Se colectaron los datos siguientes, y se procesaron con el paquete Minitab: De manera matricial: X
La transpuesta de X es (Copiar con pegado especial Transponer): X' Con la función de Excel de multiplicación de matrices MMULT : Seleccionar el rango de celdas de resultados y al final teclear (Ctrl-Shif-Enter). final) X'X
X'y 560 7,375 337,072 El vector estimador de los coeficientes Betas es :
? ?(X'X)?1X'y
Con la función de Excel MINVERSA (X'X) -1 Matrix B = INV(X'X) X'Y
Betas est, 2.341231145 1.615907211 0.014384826
The regression equation is
Cov(?) = ? (XX) ? = Y-TENT = 2.34 + 1.62 X1-ENV + 0.0144 X2-DIST
Estadísticas de la regresión ANÁLISIS DE VARIANZA Grados de Suma de Promedio de F Valor Coeficientes Error típico Estad. t Probab. Inferior 95% Superior 95% Inferior 95.0% Superior 95.0% Cálculo de la estimación de la varianza: 2 -1 Si C = (XX) -1 2 2 Y_tiempo 16.68 13.5 11.5 19.75 12.03 24 14.88 29 13.75 15.35 18.11 19 8 9.5 17.83 35.1 79.24 17.9 21.5 52.32 40.33 18.75 21 19.83 10.75 La matriz yy es:
y'y 18,310.63 ? 2.3412 1.6159 0.0144 X'y 559.6 7375.44 337072 ?Xy 18,076.90 SSE = 233.73 2 =233.73/(25-3) =10.6239 SSE = yy – ? X y
?8 ? 2
Matrix Y'Y = 18310.6
Matrix b' = [ 2.34123 1.61591 0.01438 ]
Matrix b'X'Y = 18076.9
Matrix SSe = Y'Y – b'X'Y = 233.732 ?10.624 233.732 25?3 ? S 2 ? SSE N ? p Cálculo del error estándar de los coeficientes y del intervalo de confianza para ? = 0.05
De ecuación 3.17 se tiene: se(bj) ? S 2C jj )-1 . Siendo Cjj el j-ésimo elemento de la matriz (XX
-1 M8 = (X'X) , , b1 ?t.02522se(b1)? ?1 ?b1 ?t.02522se(b1)
1.61591?(2.074) (10.6239)(0.00274378) ? ?1 ?1.6191?(2.074)(0.17073)
Por tanto el intervalo de confianza para el 95% es:
1.26181 ? ?1 ? 1.97001
Cálculo del intervalo de confianza para la respuesta media El embotellador desea construir un intervalo de confianza sobre el tiempo medio de entrega para un local requiriendo X1 = 8 envases y cuya distancia es X2 = 275 pies. Por tanto: ? ? ?1 ? ? ? ?275? X 0 ? ? ? El valor de respuesta estimada por la ecuación de ajuste es:
?2.34123? ? ? ?0.01438?
La varianza de Y0 es estimada por (tomando M8=inv(XX) anterior): ? ? ?1 ? 2 ?1 ? ?275?
Por tanto el intervalo al 95% de nivel de confianza es:
19.22?2.074 0.56794 ?Y0 ?19.22?2.074 0.56794
Que se reduce a:
17.66 ? Y0 ? 20.78
Analysis of Variance De ecuaciones 3.26 a 3.29 SST = 18,310.629 –
SSR = 18,076.930 – (559.6)2 25 (559.6)2 25 = 5784.5426
= 5,550.8166 SSE = SST SSR = 233.7260 2775.4083 10.6239 ? 261.24 ? MSR MSE F0 ? F0.05,2,22 ? 3.44
Como la F calculada es mayor que la F de tablas, se concluye que existe el modelo con alguno de sus coeficientes diferente de cero. Con el paquete Minitab se obtuvo lo siguiente: Regression Analysis: Y_tiempo versus X1_envases, X2_Distancia
The regression equation is Y_tiempo = 2.34 + 1.62 X1_envases + 0.0144 X2_Distancia
Predictor Coef SE Coef T P Constant 2.341 1.097 2.13 0.044 X1_envases 1.6159 0.1707 9.46 0.000 X2_Distancia 0.014385 0.003613 3.98 0.001
S = 3.25947 R-Sq = 96.0% R-Sq(adj) = 95.6%
Analysis of Variance
Source DF SS MS F P Regression 2 5550.8 2775.4 261.24 0.000 Residual Error 22 233.7 10.6 Total 24 5784.5
Percent Source DF Seq SS X1_envases 1 5382.4 X2_Distancia 1 168.4
Unusual Observations
Obs X1_envases Y_tiempo Fit SE Fit Residual St Resid 9 30.0 79.240 71.820 2.301 7.420 3.21RX 22 26.0 52.320 56.007 2.040 -3.687 -1.45 X 4 3 2 1 0 -1 -2 -3 1 R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence.
Predicted Values for New Observations
New Obs Fit SE Fit 95% CI 95% PI 1 19.224 0.757 ( 17.654, 20.795) (12.285, 26.164)
Values of Predictors for New Observations
New Obs X1_envases X2_Distancia 1 8.00 275
Normal Probability Plot of the Residuals (response is Y_tiempo) 99
95 90 80 70 60 50 40 30 20 10 5 Standardized Residual
Prueba de la significancia de los coeficientes particulares Probando la contribución del regresor X2 (distancia) dado que la variable regresora de casos está en el modelo. Las hipótesis son:
H0 :?2 ?0 H1 :?2 ? 0
?8 ? -1 que el estadístico t es: 0.01438 (10.6239)(0.00000123) ? 3.98 ? b2 S 2C22 t0 ? Como , t0.02522 ? 2.074, se rechaza la hipótesis H0, concluyendo que el regresor de distancia X2 (distancia), contribuye significativamente al modelo dado que casos X1 también está en el modelo.
3.5 Predicción de nuevas observaciones El modelo de regresión puede ser usado para predecir observaciones futuras en y correspondientes a valores particulares en las variables regresoras, por ejemplo X01, X02, .., X0k. Si x'0 ?[1,×01,x02,x013,…….,x01k ] Entonces una observación futura y0 en este punto es: y0 ? x'0 ? Un intervalo de de predicción con un nivel de confianza del 100(1-alfa) porciento para una observación futura es: y0 ?t? /2,n?p ? 2(1? x'0 (X'X)?1×0 ? y0 ? y0 ?t? /2,n?p ? 2(1? x'0 (X'X)?1×0 Es una generalización del modelo de regresión lineal simple. Para el caso del ejemplo del embotellador: El embotellador desea construir un intervalo de predicción sobre el tiempo de entrega para un local requiriendo X1 = 8 envases y cuya distancia es X2 = 275 pies. Por tanto: ? ? ?1 ? ? ? ?275? X 0 ? Xo = [1, 8, 275] ? ? El valor de respuesta estimada por la ecuación de ajuste es:
?2.34123? Y0 ? X'0 b ??1, 8, 275? ?1.61591? ?19.22minutos ?0.01438?
X'0 (X'X)?1X0 ? 0.05346
Por tanto el intervalo de predicción al 95% de nivel de confianza es:
19.22?2.074 10.6239(1?0.05346) ?Y0 ?19.22?2.074 10.6239(1?0.05346) Que se reduce al intervalo de predicción de: 12.28 ? Y0 ? 26.16
3.6 Extrapolación oculta AL predecir la respuesta promedio en un punto X0, se debe tener cuidado de no extrapolar más allá de la región que contiene las observaciones originales, ya que el ajuste puede no ser adecuado en esas regiones.
Para un procedimiento formal, se define el conjunto convexo más pequeño que contiene todos los n puntos originales (Xi1, Xi2, .., Xik), i=1, 2, 3, .,n, como la variable regresora envolvente o cáscara (Regressor Variable Hull RVH). Si un punto X0 = [X01, X02, , X0k ] se encuentra fuera de la variable RHV entonces se requiere extrapolación. El lugar de ese punto en relación con la RVH se refleja mediante: -1
Los puntos h00 > hmax están fuera del elipsoide que encierra la RVH y son puntos de extrapolación. -1 extrapolación oculta. En general el punto que tiene el mayor valor de hii o hmax se encuentra en la frontera de la RVH. El conjunto de puntos X que satisfacen el modelo:
-1 es un elipsoide que engloba todos los puntos dentro de la variable RVH. Para el caso del ejemplo del embotellador se tiene: x Etc.. (X'X) -1 -1 X1(XX) primero – 0.0352184 0.0120421 0.0003 Segundo – 0.0814614 0.0067458 4E-05 -1
La tabla completa se muestra a continuación: hmax
X1_envases 1600 1400 1200 1000 800 600 400 200 0 Los puntos para los cuales hoo sea mayor a hmax, se encuentran fuera del elipsoide, generalmente entre menor sea el valor de hoo es más probable que se encuentre en el elipsoide.
En la tabla la observación 9 tiene el valor mayor de hii. Como el problema solo tiene dos regresores se puede examinar en un diagrama de dispersión como sigue: Scatterplot of X1_envases vs X2_Distancia 30
25
20
15
10
5
0 X2_Distancia
Se confirma que el punto 9 es el mayor valor de hii en la frontera de la RHV. Ahora supongamos que se desea considerar la predicción o estimación para los puntos siguientes: Todos los puntos se encuentran dentro del rango de los regresores X1 y X2. El punto a es de interpolación puesto que hoo < = hmax (0.05346 < 0.49829) todos los demás son puntos de extrapolación ya que exceden a hmax, lo que se confirma en la gráfica de dispersión.
Inferencia simultanea en la regresión múltiple Indica que se pueden hacer inferencias en forma simultanea
3.6 Evaluación de la adecuación del modelo Como se comentó anteriormente, los residuos ei del modelo de regresión múltiple, juegan un papel importante en la evaluación de la adecuación del modelo, de forma similar que en la regresión lineal simple. Es conveniente graficar los residuos siguientes:
1. Residuos en papel de probabilidad normal. 2. Residuos contra cada uno de los regresores Xs. 3. Residuos contra cada Yi,i ?1,2,…,k 4. Residuos en secuencia de tiempo ( si se conoce)
Estas gráficas se usan para identificar comportamientos anormales, outliers, varianza desigual, y la especificación funcional equivocada para un regresor. Se pueden graficar los residuos sin escalamiento o con un escalamiento apropiado.
Existen algunas técnicas adicionales de análisis de residuos útiles en el análisis de la regresión múltiple, como se describen a continuación.
Gráficas de residuos contra regresores omitidos en el modelo Estas gráficas podrían revelar cualquier dependencia de la variable de respuesta Y contra los factores omitidos, se esta forma se puede analizar si su incorporación mejora la explicación del modelo.
Gráficas de residuos parciales Estas gráficas están diseñadas para revelar en forma más precisa la relación entre los residuos y la variable regresora Xj. Se define el residuo parcial i-ésimo para el regresor Xj como sigue: * eij ? ei ?bjXij,i ?1,2,….,n (3.35) La gráfica de * eij contra X ij se denomina Gráfica de residuo parcial. Esta gráfica sirve para detectar Outliers y desigualdad de varianza, dado que muestra la relación entre Y y el regresor Xj después de haber removido el efecto de los otros regresores Xi (I< >j), es el equivalente de la gráfica de Y contra Xj en regresión múltiple.
Gráficas de regresión parcial Son gráficas de residuos de los cuales se ha removido la dependencia lineal de Y sobre todos los regresores diferentes de Xj, así como su dependencia lineal de otros regresores. En forma matricial se eY|X( j),eX j|X( j) pueden escribir estas cantidades como regresor j-ésimo removido.
del modelo general en forma matricial:
Y ? X? ?? ? X( j)? ? X j? j ?? donde X(j) es la matriz original X con el
(3.36) Premultiplicando por [ I ?H( j) ] y notando que (1?H( j))X( j) ?0 se tiene: eY|X( j) ? ? jeX j|X( j) ?(1?H( j))? (3.37) Algunos programas como SAS generan gráficas de regresión parcial. Gráficas de regresores Xi versus Xj.
Estas gráficas pueden ser útiles para el análisis de la relación entre los regresores y la disposición de los datos en el espacio X, donde pueden descubrirse puntos remotos del resto de los datos y que
Yi* ? i tienen influencia en el modelo. Si se encuentra que las variables regresoras están altamente correlacionadas, puede no ser necesario incluirlas ambas en el modelo. Si dos o más regresores están altamente correlacionados, se dice que hay multicolinealidad en los datos, esto distorsiona al modelo.
Xi
** ** * * ** * ** ** * ** ***
Xj Fig. 3.1 Gráfica de Xi versus Xj
Método de escalamiento de residuos Es difícil hacer comparaciones directas entre los coeficientes de la regresión debido a que la magnitud de bj refleja las unidades de medición del regresor Xj. Por ejemplo: Y ?5? X1 ?1000X 2 (3.38) Donde Y esta medida en litros, X1 en mililitros y X2 en litros. Note que a pesar de que b2 es mucho mayor que b1, su efecto en la variable de respuesta es idéntico. Por lo anterior algunas veces es importante trabajar con regresores y variables de respuesta con escala cambiada, de tal forma que produzcan coeficientes de regresión sin dimensiones.
Existen dos técnicas para esto. La primera se denomina escala unitaria normal, X ij ? X j S j Zij ? Con i = 1, 2, ……., n; j = 1, 2, ………, k (3.39) Y ?Y Sy Con i = 1, 2, ……., n (3.40) De esta forma el modelo de regresión se transforma en: Yi* ?b1Zi1 ?b2Zi2 ?b3Zi3 ?………?bkZik ??i i = 1, 2, …….., n(3.41) (3.42) En este modelo b0 = 0 y el estimador de mínimos cuadrados para b es:
b ?(Z'Z)?1Z'Y *
El otro método de escalamiento es el escalamiento de longitud unitaria, X ij S jj Wij ? , i = 1, 2, ……, n; j = 1, 2, …….., k (3.43)
Yi0 ? i S jj ??(X ij ? X j)2 ?(Wij ?Wj)2 ?1 ?r 1,r ……r ? W'W ? ? 2k ? ?(X __ Y ?Y SYY , i = 1, 2, ……….., n (3.44) __ (3.45) Esta última es la suma de cuadrados corregida para el regresor Xj. En este caso cada regresor Wj tiene media cero y longitud uno.
__ W j ? 0 (3.46) n
i?1
En términos de las variables de regresión, el modelo queda como: Yi0 ?b1Wi1 ?b2Wi2 ?……..?bkWik ??i, i = 1, 2, ……, n (3.47) (3.48) El vector de mínimos cuadrados de los coeficientes es:
b ?(W'W)?1W'Y 0
La matriz de correlación WW en la escala unitaria tiene la forma:
?1,r 12,r 13……r 1k?
12, 23 ?……………… ? ? ? ?r 1k,r2k,r3k….1?
Donde rijes la correlación simple entre Xi y Xj. Sij SiiS jj ? rij ? n
u?1 __ __ ui ? X i)(X uj ? X j)
SiiS jj (3.49) De forma similar
?r 1Y ? W'Y 0 ? ? 2Y ? ?…. ? ? ? ?rKY ?
?(X uj ? X j)(Yu ?Y) b0 ? Y ??bj X Donde rjy es la correlación simple entre el regresor Xj y la respuesta Y: S jY S jjSYY SiiSYY ? rjy ? n __ __
u?1 (3.50) Si se utiliza la escala normal unitaria, la matriz ZZ está relacionada con WW como sigue: ZZ = (n 1) W W (3.51) Por lo que no importa que método se utilice para escalamiento, ambos métodos producen el mismo conjunto de coeficientes de regresión sin dimensiones b.
La relación entre los coeficientes originales y los estandarizados es: SYY SJJ bj ? bj j = 1, 2, ….., k (3.52) y j ___ k ___
j?1 (3.53) Si las variables originales difieren mucho en magnitud, los errores de redondeo al calcular XX pueden ser muy grandes aún utilizando computadora, es por esto que los programas muestran tanto los valores originales como coeficientes de regresión estandarizados (coeficientes Beta). Por tanto se debe tener cuidado de usar éstos últimos para medir la importancia relativa del regresor Xj.
Ejemplo 3.5 Calculando los coeficientes de correlación entre las diferentes variables, se tiene: Con Minitab:
Stat > Basic statistics > Correlation Variables Y_tiempo, X1_envases, X2_Distancia OK
Correlations: Y_tiempo, X1_envases, X2_Distancia
Y_tiempo X1_envases X1_envases 0.965 0.000
X2_Distancia 0.892 0.824 0.000 0.000
r12 = 0.824215 r1y = 0.964615 r2y = 0.891670
La matriz de correlación para este problema WW es:
? ? ?1.000000, 0.824215? ?
Las ecuaciones normales en términos de los coeficientes de la regresión estandarizados son: ?1.000000, 0.824215??b1? ?0.964615? ?0.824215, 1.000000??b2? ? ?
Por tanto:
?b1? ?3.11841, ?2.57023??0.964615? ?0.716267? ?b2? ??2.57023, 3.11841?? ? ? ?
El modelo ajustado es:
Y 0 ? 0.716267W 1 ?0.301311W2
De esta forma incrementando el valor estandarizado de envases W1 en una unidad incrementa la unidad estandarizada de tiempo en 0.7162. Además incrementando el valor estandarizado de la distancia W2 en una unidad, incrementa la respuesta en 0.3013 unidades. Por lo tanto parece ser que el volumen de producto surtido es más relevante que la distancia, con ciertas precauciones dado que los coeficientes bs son sólo coeficientes parciales de regresión.
2 SSR SST 5550.816 5784.5426 ? 0.9596 R2 ?
R2 ? Por lo anterior el 96% de la variabilidad en tiempo de entrega es explicada por los dos regresores cantidad de surtimiento X1 y distancia X2. El índice R2 siempre se incrementa cuando se agrega una nueva variable al modelo de regresión, aunque sea innecesaria.
__ 2 innecesarias en el modelo. Se calcula como sigue: (1? R2) N ?1 N ? p ?1? SSE/(N ? p) SST /(N ?1) __2 R ?1? Para el ejemplo se tiene: (1?0.9596) ? 0.9559 25 ? 1 25?3 __2 R ?1? Residuos estandarizados y estudentizados Los residuos se estandarizan como sigue:
, ei MSE di ? i = 1, 2, ………., n (3.54) Para los residuos estudentizados, utilizamos el vector de residuos:
e = (I H ) Y (3.55) donde
-1
Esta matriz tiene las propiedades siguientes: 1. Es simétrica, es decir H = H. 2. Es idempotente, es decir H H = H. 3. En forma similar la matriz I H es simétrica e idempotente.
Por tanto se tiene:
e ?(I ?H)(X? ??) ? X? ?HX? ?(I ?H)? ? X? ? X(X'X)?1X'X? ?(I ?H)? e = (I H) ? (3.55) De esta forma los residuos tienen la misma transformación lineal para las observaciones Y y para los errores ?.
La varianza de los residuos es: Var(e) ?? 2(I ? H) (3.56) Como la matriz I H no es diagonal, los residuos tienen diferentes varianzas y están correlacionados. La varianza del residuo i-ésimo es: V(ei) ?? 2(1?hii) (3.57) Donde hii es el elemento diagonal i-ésimo de H.
Tomando esta desigualdad de varianza en cuenta, varios autores recomiendan para escalamiento de los residuos, graficar los residuos estudentizados siguientes en lugar de ei (o di): , i ei MSE(1?hii) r ? i = 1, 2, ………., n (3.58) Los residuos estudentizados tienen varianza constante = 1, independientemente de la localización de Xi, cuando la forma del modelo es correcto. A pesar de que los residuos estandarizados y los estudentizados proporcionan casi la misma información, como cualquier punto con residuo y hii grande tiene una influencia potencial en el ajuste de mínimos cuadrados, se recomienda el análisis de los residuos estudentizados.
La covarianza entre ei y ej es: Cov(ei,ej) ? ?? 2hij (3.59)
PRESS ??e( 2 i) ???Yi ?Y (i)? ? ei PRESS = ?? ? ? ? De tal forma que otra forma de escalamiento de residuos es transformar los residuos n dependientes en n-p funciones ortogonales de los errores ?.
Residuos PRESS Suma de cuadrados del error de predicción
La suma de cuadrados del error de predicción (PRESS) propuesto por Allen (1971) proporciona un escalamiento útil para los residuos. Para calcular PRESS, seleccione una observación, por ejemplo (i), Ajuste el modelo de regresión a las observaciones remanentes (N 1), usando la ecuación para predecir la observación retenida (Yi). Denotando el error de predicción como: e(i) ?Yi ?Y(i) (3.60) El error de predicción es normalmente denominado el residuo i-ésimo PRESS, el procedimiento se repite para cada una de las observaciones i = 1, 2, ….., N, produciendo los residuos PRESS correspondientes. Así el estadístico PRESS se define como la suma de cuadrados de los N residuos PRESS, como: 2 N
i?1 (3.61) Así PRESS utiliza cada uno de los posibles subconjuntos de N 1 observaciones como el conjunto de datos de estimación, y cada observación en turno es usada para formar el conjunto de datos de predicción.
Como: ei 1?hii e(i) ? (3.62) Entonces: ? ? 2 N i?1 ?1?hii (3.63) De esta forma se observa que los residuos asociados con valores altos de hiiserán puntos de alta influencia, donde si se excluyen mostrarán un ajuste pobre del modelo.
La varizanza del residuo i-ésimo PRESS es: Var(e(i)) ? ? 2 1?hii (3.64) Y el residuo PRESS estandarizado es: e(i) V(e(i) ) ? ei ? 2(1?hii) (3.65) 2 discutido previamente.
R- STUDENT
Otro método para diagnosticar la presencia de outliers o puntos de alta influencia es el residuo estudentizado R Student donde la estimación de la varianza se hace excluyendo la j-ésima observación, como sigue: S 2) ? (N ? p)MSE ?e2 /(1?hii) n? p ?1 i (i i = 1, 2, ……….., n (3.66) y el residuo estudentizado externamente R Student, está dado por: , (i e(i) S 2)(1?hii) ti ? i = 1, 2, ……….., n (3.67) En muchas situaciones este residuo puede diferir del residuo estudentizado ri . Si la observación i- ésima tiene influencia, entonces S2) ? MSE (i y el estadístico R-student será más sensible a este punto. También ofrece una prueba más formal de prueba de hipótesis de outliers, ya que se puede comparar todos los n valores de |ti |.versus.t(? /2n),n?p?1.
2 PRESS SYY 2 RPredicción ?1? (3.68) Para el ejemplo de las bebidas se tiene: 2 457.4 5784.5426 2 ? 0.9209 RPredicción ?1? Por lo que esperaríamos que este modelo explicara aproximadamente el 92% de la variabilidad al predecir nuevas observaciones, que se compara con el 95.96% de la variabilidad en los datos originales explicados por el ajuste de mínimos cuadrados.
Tabla de residuos R Student 2 Montgomery, Douglas C., Peck, Elizabeth A., Introduction to Linear Regression Analysis, 2º edition, John Wiley and Sons, Nueva York, 1991, p. 176
?bj(X ij ? X i' j)? D ??? ? j?1? ? MSE 0.07824 0.04111 0.16594 0.05943 0.09626 0.09645 0.10169 0.16528 0.39158 0.04126 0.12061 0.06664 19.75 24 29 15.35 19 9.5 35.1 17.9 52.32 18.75 19.83 10.75 18.6825 23.3288 29.6629 14.9136 15.5514 7.7068 40.8880 20.5142 56.0065 23.3576 24.4029 10.9626 1.0675 0.6712 -0.6629 0.4364 3.4486 1.7932 -5.7880 -2.6142 -3.6865 -4.6076 -4.5729 -0.2126 0.3275 0.2059 -0.2034 0.1339 1.0580 0.5501 -1.7757 -0.8020 -1.1310 -1.4136 -1.4029 -0.0652 0.3411 0.2103 -0.2227 0.1380 1.1130 0.5788 -1.8736 -0.8778 -1.4500 -1.4437 -1.4961 -0.0675 1.1581 0.7000 -0.7948 0.4639 3.8159 1.9846 -6.4432 -3.1318 -6.0592 -4.8059 -5.2000 -0.2278 11.0712 11.1077 11.1050 11.1204 10.5034 10.9606 9.3542 10.7402 10.0664 10.0756 9.9977 11.1278 1.3413 0.4900 0.6317 0.2152 14.5614 3.9387 41.5145 9.8082 36.7137 23.0963 27.0403 0.0519 0.3625 0.2145 -0.2612 0.1434 1.2386 0.6306 -2.2227 -1.0460 -2.4484 -1.5463 -1.7537 -0.0707 PRESS 459.03907 3.7 Estimación del error puro a partir de vecinos cercanos Para la regresión lineal, la suma de cuadrados del error puro SSPE se calcula utilizando respuestas replicadas en el mismo nivel de X. La suma de cuadrados del error o residual se parte en un componente debido al error puro y un componente debido a la falta de ajuste o sea: SSE = SSPE + SSLOF
Esto mismo podría extenderse a la regresión múltiple, donde el cálculo de SSPE requiere observaciones replicadas en Y con el mismo nivel de las variables regresoras X1, X2, ……, Xk, o sea que algunas de las filas de la matriz X deben ser las mismas. Sin embargo estas condiciones repetidas no son comunes y este método es poco usado.
Daniel y Wood han sugerido un método para obtener un estimado del error independiente del modelo donde no hay puntos repetidos exactos. El procedimiento busca puntos en el espacio X que son vecinos cercanos es decir observaciones que se han tomado con niveles cercanos de Xi1, Xi2, …, Xik. Las respuestas Yi de tales vecinos cercanos pueden ser consideradas como réplicas a usar para el cálculo del error puro. Como una medida de la distancia entre dos puntos Xi1, Xi2, …, Xik y Xj1, Xj2, …, Xjkproponen el estadístico de suma de cuadrados ponderados de la distancia como: 2 k 2 ii (3.69) Los pares de puntos que tienen esta distancia pequeña son vecinos cercanos sobre los cuales se puede calcular el error puro, y los que generan 2 Dii ??1 están ampliamente separados en el espacio X.
El estimado del error puro se obtiene del rango de los residuos en el punto i e i, como sigue: Ei ?|ei ?ei' | (3.70) Hay una relación entre el el rango de una muestra de una distribución normal y la desviación estándar de la población. Para muestras de tamaño 2, la relación es: E 1.128 R d2 ? 0.886E ? ? ? Esta desviación estándar corresponde al error puro.
? ? u 1Eu Un algoritmo para calcular la desviación estándar estimada es como sigue:
1. Arreglar los conjuntos de datos de puntos Xs en orden ascendente de Yi-est. 2. Calcular los valores de 2 Dii , para todos los N-1 pares de puntos con valores adyacentes de Y-est. Repetir el procedimiento para los pares de puntos separados por uno, dos o tres valores intermedios de Y-est. Lo cual producirá (4 N 10) valores de 2 Dii . 4. Arreglar los (4 N 10) valores de 2 Dii en orden ascendente. Sea Eu, u = 1, 2,…, 4N-10, sea el rango de los residuos en esos puntos. 5. Para los primeros m valores de Eu, calcular un estimado de la desviación estándar del error puro como: 0.886 m m ? ? No se deben incluir Eu para los cuales la suma de las distancias cuadradas ponderadas sea muy grande. Ejemplo 3.6 La tabla 4.9 muestra el cálculo de 2 Dii para pares de puntos que en términos de Y son adyacentes, en uno, dos y tres puntos. Las columnas R en la tabla identifican a los 15 valores más pequeños de 2 Dii .
Los 15 pares de puntos se usan para estimar ? = 1.969. Sin embargo de una tabla anterior se había calcualdo MSE ? 10.6239 ?3.259. Por otro lado no se observa falta de ajuste y esperaríamos haber encontrado que ? ? MSE. Sin embargo en este caso MSE es sólo del 65% mayor que ? , indicando una cierta falta de ajuste, lo cual puede ser debido a el efecto de regresores no presentes en el modelo o la presencia de uno o más outliers.
Determinación de la Desviación estándar
?h ? i Desviación estándar Diagnóstico de influyentes A veces un pequeño grupo de puntos ejerce una influencia desproporcionada en el modelo de regresión, se deben revisar con cuidado, si son valores mal tomados, se deben eliminar, de otra forma se debe estudiar el porqué de su ocurrencia.
Puntos influyentes Son observaciones remotas que tienen un apalancamiento desproporcionado potencial en los parámetros estimados, valores de predicción, y estadísticas en general.
Hoaglin y Welsch discuten el papel de la matriz sombrero H donde sus elementos de la diagonal principal (hij) puede ser interpretado como la cantidad de influencia ejercida por Yj en Yi . Así, enfocando la atención en los elementos de la diagonal de la matriz H, como ii n
i?1 ? rango(H) ? rango(X) ? p , el tamaño medio de un elemento en la diagonal principal es p/n. Por tanto si un elemento de la diagonal principal hii ? 2p/n, la observación (i) es un punto con apalancamiento alto.
Medidas de influencia: la D de Cook Cook sugirió un diagnóstico de eliminación, es decir, mide la infuencia de la pésima observación si se eliminara de la muestra. Sugiere medir la distancia cuadrada entre el estimado de mínimos cuadrados basado en todos los n puntos b y el estimado obtenido al borrar el i-ésimo punto b(i) , esta distancia se expresa como: ,i ?1,2,……,n (b(i) ?b)'M(b(i) ?b) c Di(M,c) ? (3.71) Donde M = XX y c = pMSe, obteniéndose: ,i ?1,2,……,n (b(i) ? b)'X'X(b(i) ? b) pMSe Di(M,c) ? (3.72) . Los puntos con valores grandes de Di tienen una influencia considerable en los estimadores de mínimos cuadrados b. La magnitud de Di puede evaluarse comparándola con F?,p,n?p. Si Di ? F5,p,n?p, entonces al borrar el punto i moverá a b al límite del intervalo de confianza del 50% para ? con base en el conjunto de datos completo. Como . F5,p,n?p ?1 normalmente se considera que los puntos donde Di ?1 tendrán influencia. Idealmente cada b(i)deberá permanecer dentro de la banda del 10 a 20% de la región de confianza.
Otra forma de escribir el estadístico Di es: i r2 V(Yi) p V(ei) ,???i ?1,2,……,n r2 hii p (1?hii) Di ? (3.73)
DFFITSi ? ? ? ? ? Así Di está formado por un componente que refleja que tan bien se ajusta el modelo a la i-ésima observación Yi y un componente que mide que tan lejos se encuentra el punto del resto de los datos. Uno o ambos componentes pueden contribuir a un valor grande de Di .
Por ejemplo para el caso de tiempos de entrega para la primera observación se tiene: ? 0.10009 0.1018 (1?0.1018) ?1.62772 3 ? i r2 hii p (1?hii) Di ? En la tabla mostrada abajo el valor máximo de Di = D9 = 3.41835, indicando que el punto 9 tiene una alta influencia en el estimado de los coeficientes Beta, se consideran como influyentes los puntos mayores a 1. También es la distancia euclidiana al cuadrado que se mueve el vector de los valores estimados cuando elimina la i-ésima observación.
Influencia en los valores estimados (DFFITS) y en los parámetros estimados (DFBETAS) También se puede investigar la influencia de la observación i-ésima en la predicción de un valor. Un diagnóstico razonable es: (i ,i ?1,2,………,n Yi ?Y(i) S 2)hii DFFITSi ? (3.74) Donde Y(i) es el valor estimado de Yi obtenido sin el uso de la iésima observación, el denominador es una estandartización, por tanto DFFITS es el número de desviaciones estándar que el valor estimado Yi cambia si la observación i-ésima es removida. Computacionalmente se tiene: ti 1/2 ? ? ? hii ?1?hii (3.75) Donde ti es la R-student.
Por lo general merece atención cualquier observación donde n DFFITSi ? 2 p (3.76) Para el caso de DFBETAS, indica cuánto cambia el coeficiente de regresión Beta(j) en unidades de desviación estándar, si se omitiera la i-ésima observación. (i ? j ?? j(i) S 2)C jj DFBETAS j,i ? C jj es el j-ésimo elemento diagonal de la matriz (XX)-1 ? j es el j-ésimo coeficiente de regresión, calculado sin usar la i-ésima observación. Un valor grande de DFBETAS indica que la i-ésima observación tiene grana influencia sobre el j-ésimo coeficiente de regresión.
-1 observaciones de la muestra tienen sobre Beta. Si rj es el j-ésimo renglón de R, se tiene: ti 1?hii rj,i rj'rj DFBETAS j,i ? n elementos Ejemplo de cálculo: Renglón R = (X'X)-1X' j=1
j=2 j=3 1 2 3 4 5 6 7 8 9 10 1 12 13 14 15 16 17 18 19 20 21 22 23 R'
? i DFFITSi ? ? ? ? ? C Atender Di > 1 Atender DFFITS > 2*raiz(p/n) 0.69282032 Atneder DFBETAS > 2/raiz(n) 0.4 -1.991908828 i r2 V(Yi) p V(ei) ,???i ?1,2,……,n r2 hii p (1?hii) Di ? ti 1/2 ? ? ? hii ?1?hii ti 1?hii rj,i rjrj DFBETAS j,i ? 0.035217 0.3364746 -1.8878
0.9477341 Calculo de Bo,i r(0,1) = raiz(Cjj) t1 = raiz(1-h11) = – 0.20848235 Tabla 6.1 Esatdísticas para detectar observaciones influyentes MSE =
(a) R Student (b) (c ) (d) (e ) (f) De acuerdo a los puntos de corte de DFFITS de 0.69, los puntos 9 y 22 excend este valor por lo que se consideran influyentes. Con base en el punto de corte de DFBETAS de 0.4, los puntos 9 y 22 tienen efectos grandes sobre los tres parámetros. La eliminación del punto 9 da como resultado que la respuesta estimada se desplace en en más de cuatro desviaciones estándar.
Medida de desempeño del modelo Como medida escalar de la precisión general de la estimación, se usa el determinante de la matriz de covarianza, denominada varianza generalizada, para expresar el papel de la i-ésima observación en la
(S(2 i)) p ? 1 ? MSRe p s ? ?hii ? ? estimación de la precisión de la estimación, se define la relación de covarianzas (COVRATIOi) como sigue: ? ? COVRATIO? ' (X(i)X(i))?1 /(X ' X)?1 , por lo que un punto de alto balanceo Notar que [1/(1-hii)] es la relación de hará que COVRATIOi, sea grande. Si COVRATIOi ?1?3p/n o COVRATIOi ?1?3p/n se debería considerar el i-ésimo punto como influyente. Ejemplo: En el caso de los refrescos: el corte para COVRATIOi es 1+-3*3/25 o sea (0.64, 1.66), se puede observar de la tabla que se salen los puntos 9 y apenas el 22.
Multicolinealidad La multicolinealidad implica una dependencia cercana entre regresores (columnas de la matriz X ), de tal forma que si hay una dependencia lineal exacta hará que la matriz XX se singular. La presencia de dependencias cercanamente lineales impactan dramáticamente en la habilidad para estimar los coeficientes de regresión.
La varianza de los coeficientes de la regresión son inflados debido a la multicolinealidad. Esta es evidente por los valores diferentes de cero que no estan en la diagonal principal de XX. Los cuales se denominan correlaciones simples entre los regresores. La multicolinealidad puede afectar seriamente la precisión con la cual los coeficientes de regresión son estimados.
Entre las fuentes de colinealidad se encuantran: ? El método de recolección de datos empleado. ? Restricciones en el modelo o en la población. ? Especificación del modelo. ? Un modelo sobredefinido.
Los elementos de la diagonal principal de la matriz XX se denominan Factores de inflación de varianza (VIFs) y se usan como un diagnóstico importante de multicolinealidad. El factor para el coeficiente j-ésimo coeficiente de regresión es: j 1 1? R2 VIFj ? (3.77) j R2es el coeficiente de determinación múltiple obtenido al hacer una regresión de Xj con con todos los demás regresores. Si Xj es casi linealmente dependiente de algunos de los otros regresores, entonces 2 que si es mayor a 10 implica que se tienen serios problemas de multicolinealidad.
Los modelos de regresión que tienen presente multicolinealidad muestran ecuaciones de predicción pobres y los coeficientes de regresión son muy sensibles a los datos en la muestra colectada en particular. En comparación con el caso de regresores ortogonales que son muy estables (imaginar un plano encima). Y Y
X'X ? ? ? ? (X'X) ? W'W ? ? ?0.824215,1.00000? (W'W)?1 ? ? ??2.57023,3.11841? ? X1 X2 X1 X2 a) Datos con multicolinealidad b) Regresores ortogonales (muy inestable) (muy estable) Fig. 3.2 Efectos de la colinealidad en la estabilidad del sistema En la figura anterior, un sistema ortogonal se obtiene de los datos siguientes: X1 X2 5 10 5 10 5 10 5 10 20 20 30 30 20 20 30 30 Asumiendo que se utiliza el escalamiento unitario para los coeficientes de regresión, se obtiene: ?1 ?1,0? ?0,1? Las varianzas de los coeficientes estandarizados de regresión b1,b2 son: ?1 ? V(b2) ? 2 V(b1) 2 Y un sistema con colinealidad es:
?1.00000,0.824215? ? donde ?3.11841,?2.57023? ? Las varianzas de los coeficientes estandarizados de regresión b1,b2 son: ? 3.11841 ? V(b2) ? 2 V(b1) 2 Se observa que están infladas debido a la multicolinealidad.
4. MODELOS DE REGRESIÓN POLINOMIAL 4.1Introducción El modelo de regresión lineal en forma matricial Y ? ?X ?? es un modelo general para estimar cualquier relación que sea lineal en los parámetros desconocidos ?. Esto incluye a los modelos de regresión polinomial de segundo orden en una variable y en dos variables. Los cuales son
2 ampliamante utilizados en situaciones donde la respuesta es curvilinea o muy compleja, pero que puede ser modelada por polinomios en una región con pequeños rangos en las Xs.
Y ? ?0 ??1X1 ??2X2 ??11X1 ??22X2 ??12X1X 2 ?? 4.2. Modelos polinomiales en una variable El modelo denominado cuadrático es el siguiente:
Y ? ?0 ??1X ??2X 2 ??
Normalmente se denomina a ?1 el parámetro del efecto lineal y ?2 el parámetro del efecto cuadrático. Como regla general el uso de polinomios de más alto orden debe evitarse a menos que no haya otra alternativa.
5. REGRESIÓN MÚLTIPLE POR PASOS (Stepwise) Introducción El análisis de regresión es usado para investigar y modelar las relaciones entre una variable de respuesta y uno o más predictores. Minitab proporciona mínimos cuadrados, mínimos cuadrados parciales, y procedimientos de regresión logística.
? Usar mínimos cuadrados cuando la variable de respuesta sea continua.
? Usar procedimientos de mínimos cuadrados cuando los predictores sean altamente correlacionados o excedan al número de observaciones.
? Usar regresión logística cuando la variable de respuesta sea categórica.
Tanto el método de regresión por mínimos cuadrados como la regresión logística estiman parámetros en el modelo de manera que se optimice su ajuste.
La regresión por mínimos cuadrados, minimiza la suma de cuadrados de los errores para obtener los parámetros estimados, mientras que la regresión logística obtiene estimados de los parámetros con la máxima verosimilitud.
La regresión de cuadrados parciales (PLS) extrae combinaciones lineales de los predictores para minimizar el error de predicción. Usar… Para… Tipo de Método de respuesta estimación Regression Realizar regression simple, multiple o regression polynomial por mínimos cuadrados. continua Mínimos cuadrados Stepwise Realizar regresión por pasos, selección de variables hacia adelante, o eliminación de variables hacia atrás para identificar un conjunto útil de predictores. continua Mínimos cuadrados Best Subsets Identificar subconjuntos de los predictores con base en el criterio R máximo. continua Mínimos cuadrados Plot Fitted Line Realizar regresión lineal y polinomial con un predictor simple y graficar una línea de regresión a través de los datos. continua Mínimos cuadrados
PLS Realizar regression con datos mal condicionados (ver explicación abajo). continua biased, non- least Binary Logistic
Ordinal Logistic
Nominal Logistic Realizar regresión logística sobre una respuesta que solo tiene dos valores posibles, tal como presencia o ausencia. Realizar regresión logística en una respuesta que con tres o más valores posibles que tienen un orden natural, tal como: ninguno, medio o severo. Realizar regresión logística en una respuesta con tres o más valores posibles squares categórica máxima verosimilitud
categórica máxima verosimilitud
categórica máxima verosimilitud que no tienen un orden natural, tal como: dulce, salado, o ácido.
Datos mal condicionados Los datos mal condicionados se refieren a problemas en las variables predoctoras, las cuales pueden causar dificultades computacionales y estadísticas. Se presentan dos tipos de problemas: multicolinealidad y un pequeño coeficiente de variación.
Multicolinearidad La multicolinealidad significa que ambos predictores estan correlacionados con otros predictores. Si la correlación es alta, se pueden calcular los valores estimados y los residuos, pero el error estándar de los coeficientes será grande y su exactitud numérica puede ser afectada. Se recomienda eliminar una de las variables correlacionadas.
Para identificar los predictores que están altamente correlacionados, se puede examinar la estructura de las variables predoctoras y hacer una regresión con cada uno de los predictores sospechosos y los otros predictores. Se puede también revisar el factor de inflación VIF, que mide cuanto de la varianza de un coeficiente de regresión se incrementa, si los predictores están correlacionados. Si el VIF < 1, no hay colinealidad, pero si VIF > 1, los predictores pueden estar correlacionados. Montogomery sugiere que si se sobrepasa el límite de 5 a 10, los coeficientes tienen una estimación deficiente. Algunas soluciones al problema de multicolinealidad son: 2 ? Cambiar los predictores formando una combinación lineal con ellos usando la regresión parcial de mínimos cuadrados o análisis de componentes principales. ? Si se usan plinomios, restar un valor cercano a la media de un predictor antes de elevarlo al cuadrado. Coeficientes de variación pequeños Los predictores con coeficientes de variación pequeños (porcentaje de la desviación estándar de la media) y que casi son constantes, pueden causar problemas numéricos. Por ejemplo, la variable Año con valores de 1970 a 1975 tiene un pequeño coeficiente de variación, las diferencias numéricas se encuentran en el cuarto dígito. El problema se complica se Año es elevado al cuadrado. Se pude restar una constante de los datos, reemplazando Año con Año_desde_1970 con valores de 0 a 5.
Regresión por pasos (Stepwise regression)
Stat > Regression > Stepwise La regresión por pasos remueve y agrega variables al modelo de regresión con el propósito de identificar un subconjunto útil de predictores. La regresión por pasos remueve y agrega variables; la selección hacia delante agrega variables y la selección hacia atrás remueve variables. ? En este método de regresión por pasos, se puede iniciar con un conjunto de variables predoctoras en Predictors in initial model. Estas variables se remueven si sus valores p son mayores que el valor de Alpha to enter. Si se quieren conservar las variables en el modelo independientemente de su valor p, seleccionarlas en Predictors to include in every model en la ventana principal de diálogo.
? Cuando se selecciona el método de selección por pasos o hacia delante (forward), se puede poner un valor de alfa para una nueva variables en Alpha to enter. ? Cuando se selecciona el método de eliminación hacia atrás, se puede establecer el valor de alfa para remover una variable del modelo en Alpha to remove. Entre los problemas que se presentan con el método automático de selección se tienen los siguientes: ? Como el procedimiento automáticamente encuentra el mejor de muchos modelos, puede ajustar los datos demasiado bien, pero solo por azar. ? Los tres procedimientos automáticos son algoritmos heurísticos, que frecuentemente trabajan bien, pero pueden no seleccionar el modelo con la R2 más alta (para un cierto número de predictores). ? Los procedimientos automáticos no pueden tomar en cuenta el conocimiento especial que le analista puede tener sobre los datos. Por tanto, el modelo seleccionado puede no ser el mejor desde el punto de vista práctico. Ejemplo: Los estudiantes de un curso introductorio de estadística participan en un experimento simple. Cada estudiante registra su altura, peso, género, preferencia en fumar, nivel de actividad normal, y puso en reposo. Todos lanzan una moneda, y aquellos que les salga sol, corren durante un minuto. Después de esto el grupo coimpleto registra su pulso en reposo una vez más. Se desea encontrar los mejores predictores para la segunda tasa de pulso. Los datos se muestran a continuación: PULSE.MTW
Corrida en Minitab: 1 2 3 Open worksheet PULSE.MTW. Presionar [CTRL] + [M] para activar la session de commandos. Seleccionar Editor > Enable Commands de forma que Minitab despliegue la sesión de comandos. 4 5 6 7 8 Ejecutar Stat > Regression > Stepwise. En Response, seleccionar Pulse2. En Predictors, seleccionar Pulse1 Ran-Weight. Click Options. In Number of steps between pauses, anotar 2. Click OK en cada una de las ventanas de diálogo. 9 En la ventana de sesión, en el primer More? prompt, contestar Yes. 10 En la ventana de sesión, en el primer More? prompt, contestar No.
Resultados:
Results for: Pulse.MTW MTB > Stepwise 'Pulso2' 'Pulso1' 'Corrió'-'Peso'; SUBC> AEnter 0.05; SUBC> ARemove 0.10; SUBC> Best 0; SUBC> Steps 2; SUBC> Constant; SUBC> Press.
Stepwise Regression: Pulso2 versus Pulso1, Corrió, …
Alpha-to-Enter: 0.05 Alpha-to-Remove: 0.1
Response is Pulso2 on 6 predictors, with N = 92 Step 1 2 Constant
Pulso1 T-Value P-Value 10.28 44.48
0.957 0.912 7.42 9.74 0.000 0.000
Corrió T-Value P-Value -19.1 -9.05 0.000 S 13.5 9.82 R-Sq R-Sq(adj) 37.97 67.71 37.28 66.98 Mallows C-p 103.2 13.5 PRESS 17252.4 9304.69 R-Sq(pred) 35.12 65.01 More? (Yes, No, Subcommand, or Help)
SUBC> Yes Step Constant
Pulso1 T-Value P-Value
Corrió T-Value P-Value
Sexo T-Value P-Value 3 42.62
0.812 8.88 0.000
-20.1 -10.09 0.000
7.8 3.74 0.000 S 9.18 R-Sq R-Sq(adj) 72.14 71.19 Mallows C-p 1.9 PRESS 8195.99 R-Sq(pred) 69.18 More? (Yes, No, Subcommand, or Help)
SUBC> No MTB >
Interpretando los resultados Este ejemplo usa seis predictores. Se requirío a Minitab intervenir para mostrar los resultados. La primera página de salida proporciona los resultados para los dos primeros pasos. En el paso 1, la variable Pulso1 entró al modelo; en el paso 2, entró la variable Corrio. No se removío ninguna variable en ninguno de los dos pasos. En cada uno de los modelos, se mostró el término constante del modelo, los coeficientes y su valor t de cada variable en el modelo, S (raíz de MSE), y R2. Como se constestó Yes en MORE?, el procedimiento automático realizó un paso adicional, agregando la variable Sexo. En este punto, no más variables entraron o salieron de modo que se terminó el procedimiento automático, y otra vez preguntó por intervención, donde se indicó NO. La salida por pasos está diseñada para presentar un resumen conciso de un número de modelos ajustados.
6. REGRESIÓN POR MEJORES SUBCONJUNTOS HALLADOS (Best Subsets)
La regresión de los mejores subconjuntos idnetifica los modelos de regresión que mejor ajusten los datos con los predictores especificados. Es una forma eficiente de identificar modelos que logreen las metas con los menores predictores que sea posible. Los modelos de subconjuntos pueden realmente estimar los coeficientes de regresión y predecir respuestas futures con varianzas más pequeñas que el modelo completo que utiliza todos los predictores.
Primero se evalúan los modelos que tienen un predictor, después los de dos predictores, etcetera. En cada caso se muestra el mejor modelo. Ejemplo: El flujo de calor solar se mide ocmop parte de una prueba de energía térmica solar. Se desea ver como se estima el flujo de calor con base en otras variables: aislamiento, posición de puntos focales en el este, sur, y norte, y la hora del día. (datos de D.C. Montgomery and E.A. Peck (1982). Introduction to Linear Regression Analysis. John Wiley & Sons. p. 486). Los datos son los siguientes (Exh_regr.Mtw): Instrucciones de Minitab: 1 2 3 4 Open worksheet EXH_REGR.MTW. Seleccionar Stat > Regression > Best Subsets. En Response, seleccionar Flujo_de_Calor. En Free Predictors, seleccionar Aislamiento-Hora Click OK. Los resultados se muestran a continuación:
Results for: Exh_regr.MTW
Best Subsets Regression: Flujo_de_calor versus Aislamiento, Este, …
Response is Flujo_de_calor A i s l a m i N eE oH nsSro Mallows t t u t r Vars R-Sq R-Sq(adj) C-p S oerea 1 72.1 71.0 38.5 12.328 X 1 39.4 37.1 112.7 18.154 X 2 85.9 84.8 9.1 8.9321 X X 2 82.0 80.6 17.8 10.076 X X 3 87.4 85.9 7.6 8.5978 X X X 3 86.5 84.9 9.7 8.9110 X X X 4 89.1 87.3 5.8 8.1698 X X X X 4 88.0 86.0 8.2 8.5550 X X X X 5 89.9 87.7 6.0 8.0390 X X X X X
Interpretando los resultados Cada línea de la salidad representa un modelo diferente. Vars es el número de variables o predictores en el modelo, R2 y R2 ajustada se convienten a porcentajes. Los predictores que están presentes se indican con una X.
En este ejemplo, no es claro que modelo ajusta mejor a los datos.
? El modelo con todas las variables tiene la mayor R2 ajustada (87.7%), un valor bajo de Cp de Mallows (6.0), y el menor valor de S (8.039).
? El modelo de cuatro predictores con todas las variables excepto la Hora, tiene un valor bajo de Cp (5.8), la S es ligeramente mayor (8.16) y la R2 ajustada en ligeramente menor (87.3%).
? El mejor modelo de tres predictores incluye Norte, Sur, y Este, con un valor de Cp ligeramente más alto (7.6) y un valor menor de R2 ajustado.
? El modelo con dos predictores podría ser considerado con el menor ajuste. Se puede observar que el agregar la variable Este no mejora el ajuste del modelo.
Antes de seleccionar un modelo, se debe verificar si no se viola ninguno de los supuestos de la regresión por medio de las gráficas de residuos y otras pruebas de diagnóstico, tales como las siguientes.
Verificación de la adecuación del modelo Características de un modelo de regression adecuado Checar usando… Posibles soluciones Relación lineal entre respuesta y predictores Prueba de Lack-of-fit (falta de ajuste) Gráfica de Residuales vs variables · Agregar terminos de mayor orden al modelo · Transformar variables.
Los Residuales tienen varianza constante. Los Residuales son independientes entre sí (no correlacionados). Gráfica de Residuals vs estimados (fits) Estadístico de Durbin-Watson Gráfica de Residualess vs orden · · · · · Transformar variables. Mínimos cuadrados ponderados. Agregar un nuevo predictor. Usar análisis de series de tiempo. Agregar variable defasada en tiempo (lag). Los Residuales están normalmente distribuidos. Histograma de residuales Gráfica Normal de residuales Gráfica de Residuales vs estimados (fits) Prueba de Normalidad · · Transformar variables. Checar puntos atípicos. Observations No usuales, puntos atípicos o outliers. Gráficas de Residuales Influyentes (Leverages) Distancia de Cook's DFITS · · Transformar variables. Eliminar la observación atípica. Datos mal condicionados (ill conditioned). Factor de Inflación de Variance (VIF) Matriz de correlación de predictores · · Remover predictor. Regresión de mínimos cuadrados parciales. · Transformar variables. Si se determina que el modelo no cumple con los criterios listados en la tabla, se debe: 1. Verificar si los datos se introdujeron correctamente, especialemente identificar puntos atípicos. 2. Tratar de determinar las causas del problema. Puedes querer ver que tan sensible es el modelo al problema. Por ejemplo, si se observa un Outlier, correr el modelo sin esa observación, para ver como difieren los resultados. 3. Considerar alguna de las soluciones listadas en la tabla.
7. REGRESIÓN POR MÍNIMOS CUADRADOS PARCIALES (PLS) Usar reegresión de mínimos cuadrados parcial (PLS) para realizar una regresión sesgada, no de mínimos cuadrados. PLS se utiliza cuando los predictores son muy colineales o se tienen más predictores que observaciones, y la regresión lineal normal falla o produce coeficientes con altos errores estándar. La PLS reduce el número de predictores a un conjunto de componentes no correlacionados y realiza la regresión de mínimos cuadrados en esos componentes. La PLS ajusta variables de respuesta múltiple en un modelo simple. Dado que los modelos PLS tratan las respuestas como multivariadas, los resultados pueden diferir de si se tratan individualmente por separado. El modelo agrupa las respuestas múltiples sólo si estan correlacionadas. Ejemplo: Un productor de vino quiere saber como la composición química del vino se relaciona con las pruebas sensoriales. Se tienen 37 muestras, cada una descrita por 17 concentraciones elementales (Cd, Mo, Mn, Ni, Cu. Al, Ba, Cr, Sr, B, Mg, Si, Na, Ca, P, K) y una medida del aroma del vino de un panel de catadores. Se quiere predecir la media del aroma a partir de los 17 elementos y determinar si el modelo PLS es adecuado, dado que la relaciónde muestras a predictores es baja. Los datos son de I.E. Frank and B.R. Kowalski (1984). "Prediction of Wine Quality and Geographic Origin from Chemical Measurements by Partial Least-Squares Regression Modeling," Analytica Chimica Acta, 162, 241 251. Archivo WineAroma.mtw
Las instrucciones de Minitab son las siguientes: 1 2 3 4 5 6 7 Open worksheet WINEAROMA.MTW o tomar los datos de la tabla. Seleccionar Stat > Regression > Partial Least Squares. En Responses, seleccionar Aroma. En Predictors, selección las variables Cd-K. En Maximum number of components, indicar 17. Click Validation, seleccionar Leave-one-out. Click OK. Click Graphs, luego seleccionar Model selection plot, Response plot, Std Coefficient plot, Distance plot, Residual versus leverage plot, y Loading plot. No seleccionar Coefficient plot. Click OK en cada una de las ventanas de diálogo.
Los resultados se muestran a continuación: PLS Regression: Aroma versus Cd, Mo, Mn, Ni, Cu, Al, Ba, Cr, …
La primera línea, muestra el número de componentes en el modelo óptimo, el cual es definido como el 2 2 Cd Mo Mn Ni Cu Al Ba Cr Sr Pb B Mg Si Na Ca P K Aroma 0.005 0.055 0.056 0.044 0.16 0.146 1.51 1.16 1.1 0.122 0.149 0.088 0.83 0.066 0.643 0.982 1.02 1.29 0.387 0.312 0.308 0.029 0.038 0.035 1.23 0.975 1.14 0.561 0.697 0.73 2.63 6.21 3.05 128 193 127 17.3 19.7 15.8 66.8 53.3 35.4 80.5 75 91 150 1130 118 1010 161 1160 3.3 4.4 3.9 0.063 0.191 0.96 0.38 0.133 1.05 0.165 0.036 0.927 0.796 2.57 112 13.4 27.5 93.6 120 924 3.9 0.011 0.05 0.025 0.024 0.009 0.033 0.039 0.045 0.06 0.363 0.106 0.479 0.234 0.058 0.074 0.071 0.147 0.116 1.38 1.25 1.07 0.91 1.84 1.28 1.19 2.76 1.15 0.16 0.114 0.168 0.466 0.042 0.098 0.043 0.071 0.055 0.051 0.055 0.753 0.102 0.17 0.053 0.163 0.074 0.18 1.32 1.27 0.715 0.811 1.8 1.35 0.971 0.483 0.912 0.38 0.275 0.164 0.271 0.225 0.329 0.105 0.301 0.166 0.059 0.019 0.062 0.044 0.022 0.03 0.028 0.087 0.041 1.13 1.05 0.823 0.963 1.13 1.07 0.491 2.14 0.578 1.73 0.491 2.06 1.09 0.048 0.552 0.31 0.546 0.518 3.07 6.56 4.57 3.18 6.13 3.3 6.56 3.5 6.43 138 172 179 145 113 140 103 199 111 16.7 18.7 17.8 14.3 13 16.3 9.47 9.18 11.1 76.6 15.7 98.5 10.5 54.4 70.5 45.3 80.4 59.7 84.6 112 122 91.9 70.2 74.7 67.9 66.3 83.8 164 1090 137 1290 184 1170 187 1020 158 1240 159 1100 133 1090 212 1470 139 1120 5.6 4.6 4.8 5.3 4.3 4.3 5.1 3.3 5.9 0.067 0.077 0.064 0.025 0.02 0.166 0.261 0.191 0.009 0.027 1.53 1.65 1.78 1.57 1.74 0.041 0.073 0.067 0.041 0.046 0.043 0.285 0.552 0.081 0.153 0.512 0.596 0.633 0.655 1.15 0.132 0.078 0.085 0.072 0.094 0.026 0.063 0.063 0.021 0.021 0.229 0.156 0.192 0.172 0.358 0.699 1.02 0.777 0.232 0.025 7.27 5.04 5.56 3.79 4.24 107 94.6 110 75.9 80.9 6 6.34 6.96 6.4 7.92 55.2 10.4 13.6 11.6 38.9 44.9 54.9 64.1 48.1 57.6 148 132 167 132 136 854 899 976 995 876 7.7 7.1 5.5 6.3 5 0.034 0.05 1.15 0.058 0.058 1.35 0.294 0.006 1.12 0.206 2.71 120 14.7 68.1 64.8 133 1050 4.6 0.043 0.061 0.268 0.245 2.32 1.61 0.066 0.07 0.314 0.172 0.627 2.07 0.099 0.071 0.045 0.053 0.36 0.186 1.28 1.19 5.68 4.42 98.4 87.6 9.11 7.62 19.5 11.6 64.3 70.6 176 156 945 820 6.4 5.5 0.047 0.048 0.049 0.042 0.058 0.065 0.065 0.068 0.067 0.084 0.161 0.146 0.155 0.126 0.184 0.211 0.129 0.166 0.199 0.266 1.47 1.85 1.73 1.7 1.28 1.65 1.56 3.14 1.65 1.28 0.154 0.092 0.051 0.112 0.095 0.102 0.166 0.104 0.119 0.087 0.082 0.09 0.158 0.21 0.058 0.055 0.151 0.053 0.163 0.071 0.546 0.889 0.653 0.508 1.3 0.308 0.373 0.368 0.447 1.14 0.181 0.328 0.081 0.299 0.346 0.206 0.281 0.292 0.292 0.158 0.06 0.1 0.037 0.054 0.037 0.028 0.034 0.039 0.058 0.049 0.898 1.32 0.164 0.995 1.17 0.72 0.889 1.11 0.927 0.794 0.747 0.604 0.767 0.686 1.28 1.02 0.638 0.831 1.02 1.3 8.11 6.42 4.91 6.94 3.29 6.12 7.28 4.71 6.97 3.77 160 134 86.5 129 145 99.3 139 125 131 143 19.3 19.3 6.46 43.6 16.7 27.1 22.2 17.6 38.3 19.7 12.5 125 11.5 45 65.8 20.5 13.3 13.9 42.9 39.1 82.1 83.2 53.9 85.9 72.8 95.2 84.2 59.5 85.9 128 218 1220 173 1810 172 1020 165 1330 175 1140 194 1260 164 1200 141 1030 164 1390 146 1230 4.7 4.1 6 4.3 3.9 5.1 3.9 4.5 5.2 4.2 0.069 0.087 0.183 0.208 1.94 1.76 0.07 0.061 0.095 0.099 0.465 0.683 0.225 0.087 0.037 0.042 1.19 0.168 0.915 1.33 2 5.04 123 92.9 4.57 6.96 7.51 12 69.4 56.3 123 157 943 949 3.3 6.8 0.074 0.084 0.142 0.171 2.44 1.85 0.051 0.088 0.052 0.038 0.737 1.21 0.408 0.263 0.022 0.072 1.16 1.35 0.745 0.899 3.94 2.38 143 130 6.75 6.18 36.8 101 67.6 81.9 1170 64.4 98.6 1070 5 3.5 0.106 0.102 0.307 0.342 1.15 4.08 0.063 0.065 0.051 0.077 0.643 0.752 0.29 0.366 0.031 0.048 0.885 1.08 1.61 1.77 4.4 3.37 151 145 17.4 5.33 7.25 33.1 103 58.3 177 1100 117 1010 4.3 5.2
2 2 2 2 2 2 modelos dado que es calculada con observaciones no incluidas en el cálculo del modelo. 2 Su valor se encuentra entre 0 y 1, y se calcula a partir del estadístico PRESS. Valores altos de R Predictora sugieren modelos de mayor capacidad de predicción o estimación.
Como se tiene el mimso número de componentes que predictors (17), se pueden comparar los estadísticos de bondad de ajuste y de bondad de predicción para el modelo PLS y la solución de mínimos cuadrados. Number of components selected by cross-validation: 2 Number of observations left out per group: 1 Number of components cross-validated: 17
El ANOVA muestra que el valor p para Aroma es 0.000 menor a 0.05, proporcionando suficiente evidencia de que el modelo es significativo.
Analysis of Variance for Aroma Source DF SS MS F P Regression 2 28.8989 14.4494 39.93 0.000 Residual Error 34 12.3044 0.3619 Total 36 41.2032 Usar la tabla de Selección y Validación del Modelo para seleccionar el número óptimo de componentes para el modelo. Dependiendo de los datos o campo de estudio, se puede determinar que un modelo diferente del seleccionado por validación cruzada es más apropiado.
Model Selection and Validation for Aroma Components X Variance Error SS R-Sq PRESS R-Sq (pred) 1 0.225149 16.5403 0.598569 22.3904 0.456585 2 0.366697 12.3044 0.701374 22.1163 0.463238 3 8.9938 0.781720 23.3055 0.434377 4 8.2761 0.799139 22.2610 0.459726 5 7.8763 0.808843 24.1976 0.412726 6 7.4542 0.819087 28.5973 0.305945 7 7.2448 0.824168 31.0924 0.245389 8 7.1581 0.826274 30.9149 0.249699 9 6.9711 0.830811 32.1611 0.219451 10 6.8324 0.834178 31.3590 0.238920 11 6.7488 0.836207 32.1908 0.218732 12 6.6955 0.837501 34.0891 0.172660 13 6.6612 0.838333 34.7985 0.155442 14 6.6435 0.838764 34.5011 0.162660 15 6.6335 0.839005 34.0829 0.172811 16 6.6296 0.839100 34.0143 0.174476 17 6.6289 0.839117 33.8365 0.178789
2 2 2 2 2 2 de mínimos cuadrados de 17 componentes, se puede ver que el modelo PLS predice los datos mucho
R-Sq Calculated Response 2 mientreas que el de 17 componentes es de solo 18%. – La varianza de X indica la cantidad de varianza en los predictores que es explicada por el modelo. 16 14 12 10 8 6 4 2 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 optimal Variable Fitted Crossval En este ejemplo, el modelo de dos componentes explica el 36.7% de la varianza en los predictores. –
Esta gráfica muestra la tabla de Model Selection and Validation. La línea vertical indica que le modelo óptimo tiene dos componentes. Se puede observar que la habilidad predictiva de todos los modelos con más de cuatro componentes, se reduce significativamente, incluyendo el de 17 componententes con sólo 18%.
PLS Model Selection Plot (response is Aroma) 8 7 6 5 4 3 8
7
6
5
4
3 Variable Fitted Crossval Components
Como los puntos muestran un patrón de línea recta, de abajo hacia arriba, la gráfica de respuesta indica que el modelo ajusta los datos adecuadamente. A pesar de haber diferencias entre las respuestas estimadas (fitted) y las de validación cruzada (cross-validated indica que tan bien el modelo estima los datos, de modo que se puedan omitir), ninguno es suficientemente severo para indicar puntos influyentes extremos.
PLS Response Plot (response is Aroma) 2 components Actual Response
La gráfica de coeficientes muestra los coeficientes estandarizados para los predictores. Se usa para interpretar la magnitud y signo de los coeficientes. Los elementos Sr, B, Mg, Pb y Ca tienen los
Standardized Coefficients Component 2 16 14 12 10 8 6 4 2 coeficientes más altos y el mayor impacto en Aroma. Los elementos Mo, Cr, Pb, y B están positivamente realcionados con Aroma, mientras que Cd, Ni, Cu, Al, BA y Sr están realcionados negativamente.
PLS Std Coefficient Plot (response is Aroma) 2 components 0.3
0.2
0.1
0.0
-0.1
-0.2
-0.3 0.2 0.1 0.0 -0.1 -0.2 -0.3 -0.4 -0.5 0.5 0.4 0.3 0.2 0.1 0.0 -0.1 -0.2 -0.3 K P Ca Na Si Mg B Sr Cr Ba Al Cu Ni Mn Mo Pb Cd Predictors
La gráfica de carga compara la influencia relativa de los predictors en la respuesta. El Cu y el Mn tienen líneas muy cortas, indicando que tienen carga baja en X y no se realcionan con Aroma. Los elementos Sr, Mg, y Ba tienen líneas largas, indicando que tienen una carga mayor y se están más relacionadas con Aroma.
PLS Loading Plot 0.6 Component 1
La gráfica de distancia y la gráfica de residuales versus influyentes, muestran los puntos atípicos e influyentes. Brushing la gráfica de distancia, pueden observarse comparados con el resto de datos. La observación 14 y 32 tienen una mayor distancia en el eje Y y las observaciones de los renglones 7, 12, y 23 tienen una mayor distancia en el eje X.
Distance FromY Standardized Residual 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 9 8 7 6 5 4 3 2 1 0 PLS Distance Plot 2 components Distance FromX
La gráfica de residuos versus influyentes confirma estos hallazgos, indicando que: – Las observaciones 14 y 32 son puntos atípicos, ya que salen de las líneas de referencia horizontales. – Las observaciones 7, 12 y 23 tienen valores influyentes extremos, dado que están a la derecha de Leverages 1.0 0.8 0.6 0.4 0.2 0.0 la línea vertical de referencia.
PLS Residual Versus Leverage (response is Aroma) 2 components 0.108 2
1
0
-1
-2 8. REGRESIÓN LOGÍSTICA BINARIA 3 Tanto la regression logística como la regresión por mínimos cuadrados, investigan la relación entre una variable de respuesta y uno o más predictores. Una diferencia práctica entre ellas es que las técnicas de regresión logística se utilizan con variabnles de respuesta categóricas, y las técnicas de regresión lineal son usadas con variables de respuesta comtinuas.
Hay tres procedimientos de regresión logística que se pueden utilizar para evaluar las relaciones entre uno o más vareiables predoctoras y una respuesta categórica de los tipos siguientes: 3 Hair., Joseph Jr., Et. Al., Multivariate Data Analysis, Prentice Hall Internacional, Nueva Jersey, 1984, pp. 279- 325
Tipo de Variable Número de categorias Características Ejemplos Binary 2 Dos niveles Éxito, falla Si, No Ordinal 3 o más Orden natural de niveles Nada, moderado, severo Nominal 3 o más Niveles sin orden natural Fino, medio, grueso Azul negro, rojo, amarillo Soleado, lluvioso, nublado
Tanto los métodos de regression logísticos como los métodos de mínimos cuadrados, estiman los parámetros en el modelo de manera que el ajuste es optimizado. El de mínimos cuadrados minimiza la suma de cuadrados de los errores para estimar los parámetros, mientras que la regresión logística obtiene la máxima verosimilitud de los parámetros usando un algoritmo iterativo de mínimos cuadrados reponderados.
La regresión logística predice directamente la probabilidad de que un evento ocurra, la respuesta tiene un rango entre cero y uno con una forma de S.
Su término de error es el de una variable discreta, que no sigue la distribución normal sino la binomial; la varianza de una variable dicotómica no es contante, creando situaciones de heteroestacidad.
Su relación única entre las variables independientes y dependiente requiere un método diferente para estimar, evaluar bondad de ajuste e interpretar los coeficientes.
P(y) = 1 P(y) = 0 Bajo Alto Para la estimación de sus coeficientes dada su naturaleza no lineal, se utiliza el método de máxima verosimilitud, buscando el mayor valor de verosimilitud (likelihood value) de que un evento ocurra, en vez de la mínima suma de cuadrados como en la regresión múltiple.
En el siguiente ejemplo se muestran ejemplos de cuando el modelo puede adecuado y cuando no.
A. Relación con ajuste pobre Hay valores de X que tienen respuesta Y de eventos y no eventos. B. Relación con ajuste bien definido
Los valores de X sólo tienen una respuesta en Y de eventos o no eventos.
El nombre de regresión logística deriva de la transformación utilizada en su variable dependiente. El procedimiento para calcular los coeficientes logísticos, comparan la probabilidad de que un evento ocurra con la probabilidad de que no ocurra. Esta razón de posibilidades se expresa como: P(evento) P(no evento) ? eB0 ? B1X1 ? B2X2 ?….? BnXn Los coeficientes estimados (B0, B1, Bn) son medidas reales de las posibilidades en la relación de probabilidades. Como se expresan en logaritmos, al final se deben regresar con las funciones de antilogaritmo de modo que se pueda el efecto en las probabilidades de manera más fácil.
Cuando los coeficientes son positivos, su transformación será mayor a uno, en la razón de posibilidades se incrementa y viceversa en caso contrario.
Rlogit ? La medición global de que tan bien ajusta el modelo, similar a la menor suma de cuadrados en la regresión múltiple, se da por el valor de verosimilitud (que es realmente menos 2 veces el logaritmo del valor de verosimilitud = -2LL). Un modelo ideal tendrá una verosimilitud de 1 y un -2LL de cero. Para determinar un pseudos R2 de la regresión logística se puede calcular como: 2 ?2LLnull ?(?2LLmodel) ?2LLnull Para probar la significancia de los coeficientes se usa el estadístico de Wald, utilizado de manera similar a la regresión múltiple para probar significancia.
Ejemplo de Minitab Un investigador está interesado en comprender el efecto de fumar y el peso en la tasa de pulso en reposo. Dado que se ha categorizado la tasa de respuesta del puso en baja y alta, el análisis de regresión logística es adecuado para comprender los efectos de fumar y peso en la tasa de pulso.
Corrida en Minitab: 1 2 3 Abrir la hoja de trabajo EXH_REGR.MTW o tomar datos de esta tabla. Seleccionar Stat > Regression > Binary Logistic Regression. En Response, seleccionar RestingPulse. En Model, seleccionar Smokes Weight. En Factors (optional), seleccionar Smokes. 4 Click Graphs. Seleccionar Delta chi-square vs probability y Delta chi-square vs leverage. Click OK. 5 Click Results. Seleccionar In addition, list of factor level values, tests for terms with more than 1 degree of freedom, and 2 additional goodness-of-fit tests. Click OK en cada uno de las ventanas de diálogo. Model: Especificar los términos a ser incluidos en el modelo. Factors (optional): Especificar cuales de los predictores son factores, Minitab asume que todas las variables en el modelo con covariados a menos que se especifique cuales predictors son factores. Los predoctores continuos deben ser modelados como covariados; y los predictores categóricos deben ser modelados como factores.
Los resultados se muestran a continuación:
Results for: Exh_regr.MTW
Binary Logistic Regression: RestingPulse versus Smokes, Weight
Link Function: Logit
Información de la respuesta: – muestra el número de valores no considerados y el número de observaciones que caen dentro de cada una de las dos categorías de respuesta. El valor de la respuesta que se ha designado como el evento de referencia es la primera entrada en Valor y se etiqueta como evento. En este caso, el evento de referencia es tasa de pulso baja. Response Information Variable Value Count Pulso en reposo Bajo 70 (Event) Alto 22 Total 92
Información de los factores: muestra todos los factores del modelo, el número de niveles para cada factor, y los valores de nivel de los factores. El nivel del factor que se ha designado como nivel de referencia es la primera entrada en Values, el sujeto no fuma. Factor Information Factor Levels Values Fuma 2 No, Si
Tabla de regression logística muestra los coeficientes estimados, error estándar de los coeficientes, su valor Z y p. Cuando se usa la función de enlace logia, se puede también obtener la tasa de posibilidades y un intervalo de confianza del 95% para esta tasa. ? De la salida, se puede ver que los coeficientes estimados para ambos Fuma (z=-2.16, p =0.031) y Peso (z= 2.04, p = 0.041), tienen valores p menores a 0.05 indicando que hay suficiente evidencia de que los coeficientes no sean cero utilizando un alfa de 0.05. ? El coeficiente estimado de -1.193 para Fuma, representa el cambio en el logaritmo de P(pulso bajo/P(pulso alto) cuando el sujeto fuma comparado a cuando no lo hace, con el covariado peso mantenido constante. ? El coeficiente estimado de 0.025 para Peso representa el cambio en el logaritmo de P(pulso bajo/P(pulso alto) con un incremento en peso de 1 libra, con el factor Fuma mantenido constante. ? A pesar de que hay evidencia de que el coeficiente estimado para el peso no es cero, la tasa de posibilidades es cercana a uno (1.03), indicando que un incremento de una libra en peso afecta de forma mínima a la tasa de pulso en reposo de la persona. Se puede observar una diferencia más significativa si se comparan sujetos con una diferencia más grande en peso, (por ejemplo, si la unidad de peso es de 10 libras, la tasa de posibilidades pasa a ser 1.28, indicando que las posibilidades de un sujeto para que tenga un pulso bajo se incrementan 1.28 veces con cada 10 libras de incremento en peso). ? Para Fuma, el coeficiente negativo de -1.193 y la tasa de posibilidades de 0.30, indica que quien fuma, tiende a tener una tasa de pulso más alta que los sujetos que no fuman. Si los sujetos tienen el mismo peso, la tasa de posibilidades se puede interpretar como las posibilidades de que los fumadores en la muestra tengan un pulso bajo sea sólo del 30% de las posibilidades de que los no fumadores tengan un pulso bajo. Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper -1.98717 1.67930 -1.18 0.237 Constant Fuma Si -1.19297 0.552980 -2.16 0.031 0.30 0.10 0.90 Peso 0.0250226 0.0122551 2.04 0.041 1.03 1.00 1.05
Se muestra el último valor de verosimilitud logarítmica de las iteraciones de máxima verosimilitud, junto con el estadístico G. Este estadístico prueba la hipótesis nula de que todos los coeficientes asociados con los predictores son iguales a cero versus que sean diferentes de cero. En este caso, G = 7.54, con un valor P de 0.023, indica que suficiente evidencia de uno de los coeficientes es diferente de cero, para alfa de 0.05.
Log-Likelihood = -46.820 Test that all slopes are zero: G = 7.574, DF = 2, P-Value = 0.023
Las pruebas de bondad de ajuste muestran las pruebas de Pearson, desviación, y Hosmer- Lemeshow. Como se seleccionó el enlace a la función Logia y las opciones en la ventana de resultados, además se muestran las pruebas de Brown de alternativa general y simétrica. Las pruebas de bondad de ajuste, con valor p de 0.312 y 0.724, indican que no hay suficiente evidencia para afirmar que el modelo no ajusta los datos adecuadamente, si los valores p fueran menores a alfa, el modelo no ajustaría a los datos.
Goodness-of-Fit Tests Method Chi-Square DF P Pearson 40.8477 47 0.724 Deviance 51.2008 47 0.312 Hosmer-Lemeshow 4.7451 8 0.784 Brown: General Alternative 0.9051 2 0.636
Symmetric Alternative 0.4627 1 0.496 La tabla de valores observados y frecuencias esperadas permite ver que tan bien el modelo ajusta los datos, al comparar las frecuencias observadas y esperadas. Hay evidencia insuficiente de que el modelo no ajuste a los datos bien, ya que ambas frecuencias son similares. Esto soporta las conclusiones hechas en las pruebas de bondad de ajuste.
Table of Observed and Expected Frequencies: (See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic) Group Value 1 2 3 4 5 6 7 8 9 10 Total Bajo Obs 4 6 6 8 8 6 8 12 10 2 70 Exp 4.4 6.4 6.3 6.6 6.9 7.2 8.3 12.9 9.1 1.9 Alto Obs 5 4 3 1 1 3 2 3 0 0 22 Exp 4.6 3.6 2.7 2.4 2.1 1.8 1.7 2.1 0.9 0.1 Total 9 10 9 9 9 9 10 15 10 2 92
Medidas de asociación muestran una tabla del número y porcentaje de pares de datos concordantes, discordantes y apareados, así como las estadísticas de correlaciones comunes de rangos. Estos valores miden la asociación entre las respuestas observadas y las probabilidades estimadas.
? La tabla de pares de datos concordantes, discordantes y apareados se calcula con valores de respuesta diferentes. En este caso, se tienen 70 individuos con pulso bajo y 22 con pulso alto, resultando en 70*22 = 1540 pares con diferentes valores de respuesta. Con base en el modelo, un par es concordante si el individuo con pulso bajo tiene una probabilidad más alta de tener un pulso bajo; es discordante si ocurre lo opuesto; y pareado si las probabilidades son iguales. ? En este ejemplo, el 67.9% es concordante y 29.9% son discordantes. Se pueden usar estos valores como una medición comparativa de predicción, por ejemplo al comparar valores estimados con diferentes conjuntos de predictores o con diferentes funciones de enlace.
? Se presentan resúmenes pares concordantes y discordantes de Sommers, Goodman-Krsukal Gamma y Kendall Tau-a. Estas medidas tienden a encontrarse entre 0 y 1, donde los valores más grandes indican que le modelo tien una mejor habilidad predictiva. En este ejemplo, el rango de medición de 0.14 a 0.39 implica una predictibilidad menor a la deseable.
Measures of Association: (Between the Response Variable and Predicted Probabilities) Pairs Number Percent Summary Measures Concordant 1045 67.9 Somers' D 0.38 Discordant 461 29.9 Goodman-Kruskal Gamma 0.39 Ties 34 2.2 Kendall's Tau-a 0.14 Total 1540 100.0
Gráficas: – En el ejemplo, se sele
Página anterior | Volver al principio del trabajo | Página siguiente |