Transformaciones a una linea recta (página 3)
Enviado por Ing.+ Licdo. Yunior Andrés Castillo Silverio
La Delta Chi cuadrada de Pearson para el j-ésimo patrón de factor/covariado es el cambio en la Chi cuadrada de Pearson cuando se omiten todas las observaciones con ese patrón de factor/covariado.
Las gráficas indican que dos observaciones no ajustan bien en el modelo (alto Delta Chi cuadrado). Puede ser causado por un valor influeyente grande y/o un residuo alto de Pearson, que fue el caso ya que los valores influyentes fueron menores 0.1.
Delta Chi-Square Delta Chi-Square 1.0 0.9 0.8 0.7 0.6 0.5 0.4 Hosmer y Lemeshow indican que Delta Chi cuadrado o Delta Deviance mayores a 3.84 son grandes.
Delta Chi-Square versus Probability 6
5
4
3
2
1
0 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 6
5
4
3
2
1
0 Probability
Delta Chi-Square versus Leverage Leverage
Si se seleccionar Editor > Brush, se marcan los puntos, y dando clic en ellos, se identifican como valores de 31 y 66. Estos son individuos con un pulso en reposo alto, queines no fuman, y quienes tienen menos peso que el promedio (peso promedio = 116.136 libras). Se pueden hacer más investigaciones para ver por qué el modelo no se ajustó a ellos.
Corrida con SPSS Variables Pulsorep Fuma peso String String Numeric Instrucciones: 1. Analyze > Regresión > Binary Logistic 2. Seleccionar en Dependent Pulsorep; Covariates Fuma Peso 3. Con el botón Categorical Fuma > Continue 4. Con boitón Options Seleccionar Calsification Plots, Hosmer Goodness of fit, CI for Exp(B) > Continue 5. OK
Exportar el reporte a Word con: Seleccionar el reporte Output1 File > Export > seleccionar All Visible Objects y dar el nombre de archivo OK
Cargarlo en Word y hacer comentarios:
Logistic Regression
Block 0: Beginning Block Classification Table(a,b)
Predicted
PULSOREP Percentage Correct Observed Bajo Alto Step 0 PULSOREP Bajo 70 0 100.0 Alto 22 0 .0 76.1 Overall Percentage
a Constant is included in the model.
b The cut value is .500
Variables in the Equation B S.E. Wald df Sig. Exp(B) Step 0 Constant -1.157 .244 22.425 1 .000 .314 Variables not in the Equation
Score df Sig. Step 0 Variables FUMA(1) 3.081 1 .079 PESO
Overall Statistics 2.721
7.249 1 .099
2 .027 Block 1: Method = Enter Omnibus Tests of Model Coefficients Chi-square df Sig. Step
Step 1 Block
Model 7.574
7.574
7.574 2 .023
2 .023
2 .023 Model Summary
Step -2 Log likelihood Cox & Snell R Square Nagelkerke R Square 1 93.640 .079 .118
Hosmer and Lemeshow Test Step Chi-square df Sig. 1 7.561 8 .477 Contingency Table for Hosmer and Lemeshow Test PULSOREP = Bajo PULSOREP = Alto Observed Expected Observed Expected Total Step 1 1
2
3
4
5 9
10
8
7
6 8.345
9.591
9.322
7.379
7.119 0
1
3
2
3 .655
1.409
1.678
1.621
1.881 9
11
11
9
9 6
7
8
9
10 9
7
6
4
4 6.782
7.213
5.419
5.532
3.299 0
3
2
5
3 2.218
2.787
2.581
3.468
3.701 9
10
8
9
7 Classification Table(a)
Predicted
PULSOREP Percentage Correct Observed Bajo Alto Step 1 PULSOREP Bajo 68 2 97.1 Alto 20 2 9.1 Overall Percentage
a The cut value is .500
Variables in the Equation B S.E. Wald df Sig. Exp(B) 76.1
95.0% C.I.for EXP(B) Lower Upper Step 1(a) FUMA(1) -1.193 .553 4.654 1 .031 .303 .103 .897
Step number: 1 Observed Groups and Predicted Probabilities 16 ô ô ó ó ó ó F ó ó R 12 ô ô E ó A ó Q ó B ó U ó B ó E 8ô B ô N ó B B ó C ó BA AA B ó Y ó BAABA B A B A ó 4 ô BBBBB ABB A B A ô ó B B BBBBBABBB B B B A ó ó B B BBBBBBBBBABAB B B ó ó B BBBBBBBBBBBBBBBBBAB BAA AB A A B B ó Predicted òòòòòòòòòòòòòòôòòòòòòòòòòòòòòôòòòòòòòòòòòòòòôòòòòòòòòòòòòòòò Prob: 0 .25 .5 .75 1 Group: BBBBBBBBBBBBBBBBBBBBBBBBBBBBBBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA Predicted Probability is of Membership for Alto The Cut Value is .50 Symbols: B – Bajo A – Alto Each Symbol Represents 1 Case.
Ejemplo con HATCO Tomando la base de datos de HATCO donde: X1 – Rapidez de entregas X2 – Nivel de precios percibido X3 – Flexibilidad en precios (para negociar) X4 – Imagen de manufactura X5 – Service global necesario para mantener satifacción del cliente X6 – Imagen de la fuerza de ventas X7 – Calidad del producto pericbida por los clientes X8 – Tamaño de la mepresa: 1 = grande; 0 = pequeña. X9 – Nivel de utilización, porcentaje de productos adquiridos de Hatco X10 – Nivel de satisfacción del cliente, en las mismas unidades que las percepciones X1 a X7 X11 – Uso de especificaciones: 1 – Valor; 0-con especificaciones. X12 – Estrutura del abastecimiento: 1-Centralizado; 0-Descentralizado X13 – Tipo de industria: 1 – industria A; 0 – otras industrias. X14 – Tipo de situación de compra para el cliente: 1-Nueva tarea; 2-Compra modificada; 3- Compra normal
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 1.8 3.4 2.7 6 1.9 4.6 1.3 5.5 4 2.4 3.9 2.8 3.7 4.7 3.4 3.2 4.9 5.3 4.7 3.3 3.4 3 2.4 5.1 4.6 2.4 5.2 3.5 4.1 3 2.8 5.2 3.4 2.4 1.8 3.6 4 0 2.4 1.9 5.9 4.9 5 2 5 3.1 3.4 5.8 3 5.2 1 0.9 3.3 2.4 4.2 1.6 3.5 1.6 2.2 1.4 1.5 1.3 2 4.1 1.8 1.4 1.3 0.9 0.4 4 1.5 1.4 2.1 1.5 1.3 2.8 3.7 3.2 3.8 2 3.7 1 3.3 4 0.9 2.1 2 3.4 0.9 2.3 1.3 2.6 2.5 1.9 3.9 0.2 6.3 5.7 7.1 9.6 7.9 9.5 6.2 9.4 6.5 8.8 9.1 8.1 8.6 9.9 9.7 5.7 7.7 9.7 9.9 8.6 8.3 9.1 6.7 8.7 7.9 6.6 9.7 9.9 5.9 6 8.9 9.3 6.4 7.7 7.5 5.8 9.1 6.9 6.4 7.6 9.6 9.3 8.6 6.5 9.4 10 5.6 8.8 6.6 6 5.9 7.8 4.8 6.6 5.1 4.7 6 4.8 4.6 3.8 5.7 6.7 4.7 5.1 4.3 6.1 6.7 4 2.5 7.1 4.8 4.8 5.8 4.8 6.1 3.5 5.5 5.3 6.9 5.9 5.7 3.4 4.5 5.8 5.4 5.4 4.5 4.6 7.8 4.5 4.7 3.7 4.6 4.5 5.6 4.5 2.5 4.3 1.8 3.4 2.6 3.5 2.8 3.5 3.7 2 3 2.1 2.7 3 2.7 3.6 3.4 3.3 3 2.1 1.2 3.5 1.9 3.3 3.4 1.9 3.2 3.1 3.9 3.1 3.3 3.7 3.5 1.7 2.5 3.7 2.4 1.1 2.1 2.6 3.4 3.6 3.1 2.4 3.7 2.6 3.6 3 4 2.7 2.3 4.6 1.9 4.5 2.2 3 3.2 2.8 2.5 1.4 3.7 2.6 1.7 2.9 1.5 3.9 2.6 1.8 1.7 3.4 2.5 2.6 2.8 2.5 3.9 1.7 3 3 3.2 2.4 3.4 1.1 2.4 2.5 2.6 2.6 2.2 2.5 4.6 1.3 2.5 1.7 1.4 3.2 2.3 2.4 8.4 8.2 7.8 4.5 9.7 7.6 6.9 7.6 8.7 5.8 8.3 6.6 6.7 6.8 4.8 6.2 5.9 6.8 6.8 6.3 5.2 8.4 7.2 3.8 4.7 7.2 6.7 5.4 8.4 8 8.2 4.6 8.4 6.2 7.6 9.3 7.3 8.9 8.8 7.7 4.5 6.2 3.7 8.5 6.3 3.8 9.1 6.7 1 1 1 0 1 0 1 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 1 0 0 1 1 1 1 0 1 1 1 0 0 0 1 0 0 1 0 43 48 32 58 45 46 44 63 54 32 47 39 38 54 49 38 40 54 55 41 35 55 36 49 49 36 54 49 46 43 53 60 47.3 35 39 44 46 29 28 40 58 53 48 38 54 55 43 57 4.3 5.2 3.9 6.8 4.4 5.8 4.3 5.4 5.4 4.3 5 4.4 5 5.9 4.7 4.4 5.6 5.9 6 4.5 3.3 5.2 3.7 4.9 5.9 3.7 5.8 5.4 5.1 3.3 5 6.1 3.8 4.1 3.6 4.8 5.1 3.9 3.3 3.7 6.7 5.9 4.8 3.2 6 4.9 4.7 4.9 0 0 0 1 0 1 0 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 0 1 1 0 1 1 0 0 1 1 0 0 0 0 1 0 0 0 1 1 1 0 1 1 0 1 1 1 1 0 1 0 1 0 1 0 0 1 0 0 0 1 0 0 0 0 0 1 1 0 0 1 0 0 1 1 1 0 1 1 1 1 0 1 1 1 0 0 0 1 0 0 1 0 0 1 1 1 1 1 0 1 0 0 1 0 1 0 0 1 0 1 0 0 0 0 0 0 1 0 1 1 0 0 0 0 0 0 1 1 1 1 1 1 1 0 0 1 0 1 1 1 1 2 1 3 2 1 2 3 2 1 2 1 1 3 3 2 2 3 3 2 1 3 1 2 3 1 3 3 2 1 3 3 1 1 1 2 3 1 1 1 3 3 2 1 3 3 2 3
50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 5.4 3.7 2.6 4.5 2.8 3.8 2.9 4.9 5.4 4.3 2.3 3.1 5.1 4.1 3 1.1 3.7 4.2 1.6 5.3 2.3 3.6 5.6 3.6 5.2 3 4.2 3.8 3.3 1 4.5 5.5 3.4 1.6 2.3 2.6 2.5 2.4 2.1 2.9 4.3 3 4.8 3.1 1.9 4 0.6 6.1 2.1 0.7 4.8 4.1 2.4 0.8 2.6 4.4 2.5 1.8 4.5 1.9 1.9 1.1 3.8 2 1.4 2.5 4.5 1.7 3.7 5.4 2.2 2.2 1.3 2 2.4 0.8 2.6 1.9 1.6 1.8 4.6 2.8 3.7 3 3.1 2.9 3.5 1.2 2.5 2.8 1.7 4.2 2.7 0.5 1.6 0.5 8 8.2 8.2 6.3 6.7 6.7 7.7 7.4 9.6 7.6 8 9.9 9.2 9.3 5.5 7.2 9 9.2 6.4 8.5 8.3 5.9 8.2 9.9 9.1 6.6 9.4 8.3 9.7 9.1 8.7 8.7 5.5 6.1 7.6 8.5 7 8.4 7.4 7.3 9.3 7.8 7.6 5.1 5 6.7 6.4 9.2 3 6 5 5.9 4.9 2.9 7 6.9 5.5 5.4 4.7 4.5 5.8 5.5 4.9 4.7 4.5 6.2 5.3 3.7 5.2 6.2 3.1 4.8 4.5 6.6 4.9 6.1 3.3 4.5 4.6 3.8 8.2 6.4 5 6 4.2 5.9 4.8 6.1 6.3 7.1 4.2 7.8 4.9 4.5 5 4.8 3.8 2.1 3.6 4.3 2.5 1.6 2.8 4.6 4 3.1 3.3 2.6 3.6 2.5 3.4 1.6 2.6 3.3 3 3.5 3 4.5 4 2.9 3.3 2.4 3.2 2.2 2.9 1.5 3.1 3.6 4 2.3 3 2.8 2.8 2.7 2.8 2 3.4 3 3.3 3.6 2.2 2.2 0.7 3.3 1.4 2.5 2.5 3.4 2.6 2.1 3.6 4 3 2.5 2.2 3.1 2.3 2.7 2.6 3.2 2.3 3.9 2.5 1.9 2.3 2.9 1.6 1.9 2.7 2.7 2.7 2.6 1.5 3.1 2.1 2.1 4.4 3.8 2.5 2.8 2.2 2.7 2.3 2.5 4 3.8 1.4 4 2.5 2.1 2.1 2.8 5.2 5.2 9 8.8 9.2 5.6 7.7 9.6 7.7 4.4 8.7 3.8 4.5 7.4 6 10 6.8 7.3 7.1 4.8 9.1 8.4 5.3 4.9 7.3 8.2 8.5 5.3 5.2 9.9 6.8 4.9 6.3 8.2 7.4 6.8 9 6.7 7.2 8 7.4 7.9 5.8 5.9 8.2 5 8.4 7.1 0 0 1 1 1 0 0 1 0 0 1 0 0 0 0 1 0 0 1 0 1 1 0 0 0 1 0 0 0 1 0 0 0 1 0 1 1 1 0 1 0 0 0 0 1 0 1 0 53 41 53 50 32 39 47 62 65 46 50 54 60 47 36 40 45 59 46 58 49 50 55 51 60 41 49 42 47 39 56 59 47.3 41 37 53 43 51 36 34 60 49 39 43 36 31 25 60 3.8 5 5.2 5.5 3.7 3.7 4.2 6.2 6 5.6 5 4.8 6.1 5.3 4.2 3.4 4.9 6 4.5 4.3 4.8 5.4 3.9 4.9 5.1 4.1 5.2 5.1 5.1 3.3 5.1 4.5 5.6 4.1 4.4 5.6 3.7 5.5 4.3 4 6.1 4.4 5.5 5.2 3.6 4 3.4 5.2 1 1 0 0 0 1 1 0 1 1 0 1 1 1 1 0 1 1 0 1 0 0 1 1 1 0 1 1 1 0 1 1 1 0 1 0 0 0 1 0 1 1 1 1 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 0 0 1 1 0 0 1 0 1 1 0 0 0 1 0 0 0 1 0 0 1 1 1 1 1 1 1 1 0 1 0 1 1 0 1 0 1 0 1 0 1 0 1 0 0 1 1 1 0 1 1 1 0 0 0 0 1 1 1 0 1 0 1 0 1 1 0 0 1 0 0 0 1 0 0 1 0 1 0 1 0 1 1 1 3 2 2 2 1 1 2 2 3 3 2 3 3 3 2 1 2 3 2 3 2 2 3 3 3 1 2 2 3 1 3 3 2 1 1 2 1 2 1 1 3 2 2 2 1 1 1 3
Paso 1. Obtener el comportamiento del modelo por cada variable X1 a X7:
La variable dependiente es X11:
Corrida en Minitab: 1 2 3 4 Abrir la hoja de trabajo HATCO.MTW o tomar datos de esta tabla. Seleccionar Stat > Regression > Binary Logistic Regression. En Response, seleccionar X11 En Model, seleccionar X1-X7 Click Graphs. Seleccionar Delta chi-square vs probability y Delta chi-square vs leverage. Click OK. 5 Click Results. Seleccionar In addition, list of factor level values, tests for terms with more than 1 degree of freedom, and 2 additional goodness-of-fit tests. Click OK en cada uno de las ventanas de diálogo. Model: Especificar los términos a ser incluidos en el modelo.
Los resultados de la corrida son los siguientes:
Binary Logistic Regression: X11 versus X1, X2, X3, X4, X5, X6, X7
Link Function: Logit Response Information
Variable Value Count X11 1 60 (Event) 0 40 Total 100
Logistic Regression Table 95% CI Predictor Coef SE Coef Z P Odds Ratio Lower Upper Constant -1.37522 5.27926 -0.26 0.794 X1 X2 X3 X4 X5 X6 X7 0.0759455 4.00067 0.02 0.985 1.08 0.00 2744.24 -0.349077 4.00277 -0.09 0.931 0.71 0.00 1801.48 2.21451 0.869462 2.55 0.011 9.16 1.67 50.33 -2.04458 1.75315 -1.17 0.244 0.13 0.00 4.02 2.63834 8.25052 0.32 0.749 13.99 0.00 1.47505E+08 5.10396 2.97675 1.71 0.086 164.67 0.48 56297.08 -3.39040 1.09301 -3.10 0.002 0.03 0.00 0.29 Log-Likelihood = -12.479 Test that all slopes are zero: G = 109.645, DF = 7, P-Value = 0.000
Goodness-of-Fit Tests
Method Chi-Square DF P Pearson 41.5472 91 1.000 Deviance 24.9571 91 1.000 Hosmer-Lemeshow 2.0928 8 0.978 Brown: General Alternative 2.5040 2 0.286 Symmetric Alternative 0.0018 1 0.966
Delta Chi-Square Table of Observed and Expected Frequencies: (See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)
Group Value 1 2 3 4 5 6 7 8 9 10 Total 1 Obs 0 Exp 0.0 0 Obs 10 Exp 10.0 Total 10 0 0 2 9 9 10 10 10 10 60 0.0 0.3 2.1 8.0 9.6 9.9 10.0 10.0 10.0
10 10 8 1 1 0 0 0 0 40 10.0 9.7 7.9 2.0 0.4 0.1 0.0 0.0 0.0 10 10 10 10 10 10 10 10 10 100 Measures of Association: (Between the Response Variable and Predicted Probabilities)
Pairs Number Percent Summary Measures Concordant 2375 99.0 Somers' D 0.98 Discordant 25 1.0 Goodman-Kruskal Gamma 0.98 Ties 0 0.0 Kendall's Tau-a 0.47 Probability 1.0 0.8 0.6 0.4 0.2 0.0 Total 2400 100.0
Delta Chi-Square versus Probability
20
15
10
5
0
Delta Chi-Square 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 20
15
10
5
0 Delta Chi-Square versus Leverage Leverage
Corrida en SPSS de Hatco Logistic Regression
Case Processing Summary a. If weight is in effect, see classification table for the total number of cases.
Dependent Variable Encoding
Block 0: Beginning Block Iteration History a,b,c a. Constant is included in the model. b. Initial -2 Log Likelihood: 134.602 c. Estimation terminated at iteration number 2 because log-likelihood decreased by less than .010 percent.
Classification Table a,b a. Constant is included in the model. b. The cut value is .500
Variables in the Equation
Variables not in the Equation Block 1: Method = Enter
Iteration History a,b,c,d a. Method: Enter b. Constant is included in the model. c. Initial -2 Log Likelihood: 134.602 d. Estimation terminated at iteration number 8 because log-likelihood decreased by less than .010 percent.
Omnibus Tests of Model Coefficients Model Summary
Hosmer and Lemeshow Test
Contingency Table for Hosmer and Lemeshow Test Classification Table a. The cut value is .500 Variables in the Equation a. Variable(s) entered on step 1: X1, X2, X3, X4, X5, X6, X7.
Correlation Matrix Step number: 1
80
60
40 F R E Q U E N C Observed Groups and Predicted Probabilities
1 1 1 Y 0 1 20 0 0 0 000 1 1 1 11 1 Predicted
Prob: 0 .25 .5 .75 1 Group: 000000000000000000000000000000111111111111111111111111111111
Predicted Probability is of Membership for 1.00 The Cut Value is .50 Symbols: 0 – .00 1 – 1.00 Each Symbol Represents 5 Cases. Casewise List b
a. S = Selected, U = Unselected cases, and ** = Misclassified cases. b. Cases with studentized residuals greater than 2.000 are listed. Ejemplo del Titanic En 1912, se hunde el Titanic, de los 2,228 pasajeros y tripulación, sólo sobrevivieron 705. Se reunió información de 1,309 pasajeros observando si sobrevivieron en función de su edad, género, tipo de boleto y número de miembros de la familia que los acompañaban.
Se investigó para tratar de determinar si había algunas variables explicativas de la supervivencia.
Fig. 1 Características de 21 pasajeros 4 Este problema puede ser abordado con la Regresión Logística, donde la respuesta es binaria (0,1) y no sigue una distribución normal con varianza constante.
En el modelo general:
El valor esperado es la probabilidad de que la variable tome el valor de uno (1 = supervivencia). Para poder utilizar un modelo más general se hace una transformación logística (por ejemplo ln(p/(1-p)), lo que nos lleva al modelo de regresión logística:
Los parámetros en la regresión logística se estiman por el método de máxima verosimilitud, en términos de p, el modelo de regresión se puede escribir como: En el ejemplo, 1 equivale a sobrevivió y 0 a no sobrevivió, y las cinco características de los pasajeros son:
? Pclass es la clase 1 es primera, 2 es segunda y 3 es tercera. ? Age es la edad del pasajero. ? Sex es 1 para mujeres y 1 para hombres. 4 Landau Sabine y Everitt Brian, Statistical Analysis USing SPSS, Chapman & Hall/ CRC, Chicago, EEUU., 2004
? Parch, número de familiares directos padres e hijos. ? Sibsp, número de hermanos o esposa.
Las tablas de contingencia para las diferentes variables son las siguientes (comando Crosstabs ): Las proporciones de supervivencia decrecen para boletos en primera clase. Las proporciones de supervivencia son mayores en las mujeres que en los hombres.
Las proporciones de supervivencia son mayores para pasajeros con un hermano o esposa o tres familiares directos (padres / hijos) con ellos.
Para examinar la asociación entre la edad y la supervivencia, se puede observar una gráfica de dispersión de dos variables, con la opción de Lowess curve. La cuál proporciona una representación informal del cambio en la proporción de 1 con la edad. ___________________________________________________________________. Por ejemplo al examinar las edades de las parejas que contraen matrimonio se observa que hay cierta concentración en los jóvenes, como sigue: La curva Lowess (locally weighted regresión fit) permite revelar la relación entre las dos edades en vez de asumir que es lineal
________________________________________________________________.
Para el caso que se está tratando de encontrar la relación entre edad y supervivencia se tiene: A pesar de que las tablas de contingencia y gráficas de dispersión son útiles para los análisis iniciales, no describen las posibles confusiones o interacciones entre las variables consideradas.
Haciendo un análisis de tablas de contingencia adicionales con las variables se encuentra que: ? ? ? ? ? Los hombres tienden a tener un boleto de tercera clase que las mujeres. Los hombres llevan menos hermanos que las mujeres. La mediana de edad es decreciente con la clase baja de pasajeros. El número de hermanos o esposa decrece con la edad. El número de familiares directos se incrementa con la edad. Para clarificar la presentación de los datos, se puede hacer una clasificación múltiple de supervivencia de pasajeros dentro de estratos definidos por variables explicativas. Para lo cual se categorizar las variables edad, parch y sibsp, formando nuevas variables:
? Age_cat para categorizar a los pasajeros en niños (< 21 años) y adultos (>21 años). ? Marital, para categorizar en cuatro estados civiles (1-Sin hermanos o esposa; 2-Con hermanos o esposa pero sin niños; 3- Sin hermanos o esposa pero con niños; 4- Con hermanos o esposa y además con niños). Para generar estas variables se pueden utilizar los comandos de SPSS Recode, Compute e If Cases. También se usa el comando Crosstabs para generar la tabla de cinco vías y Layer para indicar que forme celdas para cada combinación de las variables.
Los resultados se muestran a continuación:
Las conclusiones del estudio indican que para los pasajeros sin hermanos o esposa o sin niños, a los cuales pertenecía el 60% de los pasajeros se observa que: ? Las mujeres con boleto de primera clase tenían una probabilidad mayor de supervivencia.
? Los hombres con boleto de tercera clase tenían menos probabilidad de sobrevivir. ? Los niños tuvieron mayor probabilidad de sobrevivir que los adultos.
Ahora se procederá a investigar las asociaciones entre la supervivencia y los cinco predictores potenciales utilizando la regresión logística con el comando:
Analyze Regression Binary Logistic Se inicia incluyendo una variable a la vez para observar su efecto no ajustado, en este caso Pclass. ? La variable binaria se declara en la ventana de Dependent, y la variable explicatorio en la vantana Covariates.
? Por omisión SPSS asume que las variables explicativas se miden en una escala de intervalo. Para informar a SPSS que la variable pclass es categórica, se le indica con el botón Categorical y se incluye en la ventana Categorical Covariates. Esto hará que se generen las variables artificiales apropiadas, por omisión se generan k-1 variables indicadoras para k categorías, donde el código de la categoría más alta representa la categoría de referencia, también puede cambiarse esto.
? Con el botón Options seleccionar CI for exp(B) en la ventana de diálogo, para incluir intervalos de confianza para las razones de indicadores en los resultados.
Los resultados de la codificación de la categoría de clase de boleto se muestran a continuación:
Se observa que la codificación de la variable artificial, para la variable categórica predoctora única, es (1) para primera clase, (2) para segunda clase y la tercera clase representa la categoría de referencia. SPSS inicia con ajustar un null model vgr. Un modelo que contiene sólo un parámetro de intersección (ver Block 0: beginning block).
La primera parte de esta tabla es una tabla de clasificación para el modelo nulo, que compara las predicciones de supervivencia realizadas con base en el modelo ajustado con el estatus verdadero de supervivencia. Se pronostica a los pasajeros en la categoría de supervivencia si sus probabilidades son superiores a 0.05 (la cuál puede cambiarse en el diálogo Options), de manera que la proporción de no supervivencia de 0.382 está por debajo del límite de 0.5 y así el modelo calsifica a los no sobrevivientes con una exactitud del 61.8%. A continuación la tabla de Variables en la ecuación proporciona la prueba de Wald para la hipótesis nula de intersección cero (o un número igual de las proporciones de supervivientes y no supervivientes). También muestra las pruebas para las variables aún no incluidas en el modelo, aquí pclass. Es claro que la supervivencia está relacionada significativamente con la clase del boleto del pasajero (Chi cuadrada = 127.9, p < 0.001), también se incluyen comparaciones entre las clases de pasajeros con la categoría de referencia (tercera clase).
Los resultados anteriores muestran la Tabla de clasificación donde se indica que Pclass incrementa el porcentaje de clasificación correcta a 67.7%. La tabla Ominibus Test of Model muestra la razón de verosimilitud (LR) o sea es una prueba para evaluar los efectos de Pclass, de nuevo se detecta un efecto significativo con Chi cuadrada = 127.8 y p < 0.001. Finalmente la tabla de Variables en la ecuación proporciona las pruebas de Wald para todas las variables incluidas en el modelo. Consistente con las pruebas LR, el efecto de Pclass es significativo (Chi cuadrada de 120.5 con p < 0.001). Los parámetros estimados, son proporcionados en la columna B y su error estándar en SE. Como los efectos son difíciles de interpretar, se proporcionar en términos logarítmicos en la columna Exp(B). Comparando cada clase con la tercera, se estima que las probabilidades de supervivencia fueron 4.7 veces más altas para pasajeros de primera clase (CI de 3.6 a 6.3) y 2.2 veces más altas que para la segunda clase (1.6 a 2.9). Claramente, las probabilidades de supervivencia son mayores en las dos clases superiores. Los resultados de las otras variables categóricas explicativas consideradas individualmente se muestran a continuación, las variables sibsp y parch se recodificaron previamente en sibsp1 y parch1 dado que la supervivencia de pasajeros acompañados por muchos familiares o niños fue cero, se agruparon en una sola categoría.
Se muestra que la probabilidad de supervivencia entre pasajeros es 8.4 veces mayor para las mujeres que para los hombres. Las edades se centran en 30 años, se determinan los términos lineales, cuadráticos y cúbicos y se dividen por sus desviaciones estándar para mejor comparación.
Se observa que los términos combinados de Age tienen un efecto significativo en la supervivencia (Chi cuadrada (3) = 16.2, p = 0.001). Las pruebas de Wald indican que el modelo cuadrático y cúbico contribuyen significativamente a explicar la variabilidad en las probabilidades de supervivencia y el modelo logarítmico lineal no es suficiente.
Habiendo analizado que todos los predoctores potenciales tienen asociación con la supervivencia cuando se consideran de manera singular, el siguiente paso es estimar sus efectos simultáneamente. De esta manera, se puede estimar el efecto para cada uno, ajustado por el remanente. El modelo de regresión logística incluye en su ventana de Covariates, las cuatro variables categóricas y los tres términos de edad (con el botón Categorical). Los resultados se muestran a continuación: Se puede notar que de la tabla Case Processing Summary, los casos incluidos en el análisis se reduce a 1046 dado que falta información en la variable de edad para 263 pasajeros.
La tabla Ómnibus.. proporciona el efecto de todas las variables explicativas simultáneamente, la guía de la significancia son las pruebas de Wald. En esta corrida se observa que la variable Patch1 no contribuye a la explicación de las probabilidades de supervivencia, una vez que se introducen las otras variables, de manera que se excluye del modelo y se hace una nueva corrida, donde ahora el tercer término de la edad no es necesario.
El modelo final de efectos principales contiene términos de edad, clase del boleto, género, y número de hermanos/esposas, cada contribuye significativamente a un nivel del 5% después de ajustar los otros términos del modelo.
Ahora se prueban los términos de interacción de dos vías, una por una, por medio de la opción de bloqueo para agregar los términos de interacción de interés, a los efectos principales significativos identificados previamente. Por ejemplo para Age y Sex: Un término de interacción se puede definir en la ventana de Logistic Regresión, seleccionando las variables involucradas y el botón >a*b> para crear términos de interacción.
Los resultados se indica como sigue: El primer término permite que el efecto del término lineal de Age varie con Sex, la segunda hace lo mismo con el término cuadrático y Age.
Se procede a analizar las otras interacciones.
De la tabla siguiente se observa que se deben incluir en el modelo las interacciones entre: género y clase de boleto; género y edad; clase de boleto y número de hermanos/esposa; y edad y número de hermanos/esposa. Si se considera el 10% también se debe incluir este último término.
Como un medio alterno para interpretar el modelo logístico de ajuste, se obtienen gráficas de las probabilidades logarítmicas de la supervivencia, dado que el modelo asume efectos aditivos de las variables explicativas en esta escala. Las instrucciones son las siguientes: ? Guardar las probabilidades de supervivencia como una nueva variable pre_1, en la vista de Datos, seleccionado Predicted Values:Probabilities en la ventana Save New Variables cuando se obtenga el modelo de regresión final. ? Transformar estos valores en posibilidades usando la fórmula odds = pre_1/(1-Pre_1) y calcular la variable logarítmica con la fórmula ln_odds= ln(odds).
? Generar un factor de interacción clase y género (class.se) con Compute Numeric Expresión 100 x pclass + 1 x Sex. Resultará en un factor con 6 niveles, cada uno con tres dígitos: el primero indica la clase; el intermedio es cero; y el último indica el género. ? Usar el comando Split File para organizar la salida en grupos definidos por sibsp2. ? Usar el comando Simple Scatterplot para producir una gráfica de dispersión de ln_odds contra la edad con marcadores definidos por class.se.
? Predictores identificados: cada una de las variables, edad del pasajero, género, clase de boleto, y número de hermanos/esposa, hacen una contribución independiente a la predicción de las posibilidades de supervivencia. Quienes tienen mayores posibilidades son: los jóvenes (< 20 años), mujeres, en primera clase. Los que tienen menos posibilidades son: los de tercera clase, adultos acompañados de dos o más hermanos/esposa. ? Interacción edad por género: Las posibilidades de supervivencia son mayores para mujeres que para hombres conforme se tiene mayor edad. ? Interacción de género por clase de boleto: Las posibilidades de supervivencia de las mujeres sobre los hombres se incrementa con la clase. 9. REGRESIÓN LOGÍSTICA ORDINAL La regression logística ordinal realiza una regresión con una variable de respuesta ordinal. Las variables ordinales son variables categóricas que tienen tres o más niveles posibles con un orden natural, tal como fuertemente en desacuerdo, desacuerdo, de acuerdo, y fuertemente de acuerdo. Un modelo con uno o más predictores se ajusta usando un algoritmo iterativo de mínimos cuadrados reponderado, para obtener los estimados de los parámetros por máxima verosimilitud. Se asumen líneas de regresión paralelas, y por tanto, se determina una sóla pendiente para cada covariado. En situaciones donde este supuesto no es válido, la regresión logística nominal es más apropiada, ya que genera funciones logit separadas. Ejemplo: Suponiendo que un biólogo cree que la población adulta de salamandras en el Norte se ha hecho más pequeña durante los últimos años. Se quiere determinar si existe alguna asociación entre el tiempo que vive una salamandra recien nacida y el nivel de toxicidad del agua, así como si hay un efecto regional. El tiempo de supervivencia se codifica como sigue: 1 si es < 10 días; 2 = 10 a 30 días; 3 = 31 a 60 días.
2 2 2 2 2 2 3 2 2 2 2 2 1 1 2 2 1 2 1 2 1 2 2 2 34.25 41.25 41.75 45.25 43.50 53.00 38.00 59.00 52.50 42.75 31.50 43.50 2 2 1 2 2 3 2 2 2 1 2 3 2 2 1 2 1 1 2 2 2 2 2 2 47.00 39.75 60.00 41.00 41.00 30.00 45.00 51.00 35.25 40.50 39.50 36.00 2 2 40.00 Instrucciones de Minitab 1 2 3 Open worksheet EXH_REGR.MTW. Seleccionar Stat > Regression > Ordinal Logistic Regression. En Response, seleccionar Survival. En Model, seleccionar Region ToxicLevel. En Factors (optional), seleccionar Region. 4 Click Results. Seleccionar In addition, list of factor level values, and tests for terms with more than 1 degree of freedom. Click OK en cada ventana de diálogo. Los resultados se muestran a continuación: Results for: Exh_regr.MTW
Ordinal Logistic Regression: Supervivencia versus Region, NivelToxico
Link Function: Logit
Información de respuesta: muestra el número de observaciones que caen dentro de cada una de las categorías de respuesta. Abajo se muestran los valores ordenados de la respuesta de menor a mayor. 1 corresponde a < 10 días; 2 = 10 a 30 días; y 3 = 31 a 60 días.
Información de factores: muestra todos los factores en el modelo, el número de niveles para cada factor, y los valores de los niveles del factor. El nivel del factor que ha sido designado como el nivel de referencia, es el primer dato en Valores. En este caso Región 1.
Niveles de Referencia para los factores Se requiere asignar un nivel de factor como el nivel de referencia. Los coeficientes estimados se interpretan respecto a este nivel de referencia. Minitab asigna el nivel de referencia como sigue dependiendo del tipo de datos: – – – Para factores numéricos, el nivel de referencia es el valor con el menor valor numérico. Para fechas, el nivel de referencia es el nivel con la fecha/hora más antigua. Para factores de texto, el nivel de referencia es el nivel que está primero en orden alfabético. Se puede cambiar esta configuración de Default en la ventana de diálogo de Options. Para cambiar el nivel de referencia de un factor, especificar la variable del factor seguida por el nuevo nivel de referencia en la ventana Reference factor level. Se puede especificar niveles de referencia para más de un factor al mismo tiempo. Si todos los niveles son texto o fecha/hora, encerrarlos entre comillas. Si ya se definió un valor de orden para un factor de texto, la regla por omisión es que se designa el primer valor en el orden definido como valor de referencia. La regression logística crea un conjunto de variables de diseño para cada uno de los factores en el Modelo. Si hay k niveles, habrá k-1 variables de diseño y el nivel de referencia será codificado con cero. Por ejemplo:
Nivel de referencia para la variable de respuesta
Minitab asigna el nivel de referencia como sigue dependiendo del tipo de datos: – – – Para factores numéricos, el nivel de referencia es el valor con el mayor valor numérico. Para fechas, el nivel de referencia es el nivel con la fecha/hora más reciente. Para factores de texto, el nivel de referencia es el nivel que es último en orden alfabético. Se pueden cambiar en la ventana siguiente: Response Information
Variable Value Count Supervivencia 1 15 2 46 3 12 Total 73
Factor Information
Factor Levels Values Region 2 1, 2
Tabla de regression logística: muestra los coeficientes estimados, el error estándar de los coeficientes, los valores Z, los valores p. Cuando se utiliza la función de enlace logit, se muestran las tasas de posibilidades calculadas, y un intervalo de confianza del 95% para las tasas de posibilidades. – Los valores etiquetados Const(1) y Const(2) son intersecciones estimadas para las funciones logit de probabilidad acumuladas de supervivencia para < 10 días, y para 10-30 días respectivamente.
– El coeficiente de 0.2015 para la región es el cambio estimado en la función logit acumulativa del tiempo de supervivencia cuando la región es 2 comparada con la región 1, con el covariado Nivel Toxico mantenido constante. Dado que el coeficiente estimado es 0.685, no hay suficiente evidencia de que la región tenga un efecto sobre el tiempo de supervivencia. – Hay un coeficiente estimado para cada covariado, que da líneas paralelas para el nivel del factor. En este caso, el coeficiente estimado para un covariado simple, Nivel Toxico, es 0.121, con un valor p < 0.0005. El valor p indica que para la mayoría de niveles alfa, hay evidencia suficiente para concluir que el nivel de toxicidad afecta la supervivencia. El coeficiente positivo, y una tasa de posibilidades mayor a uno, indica que los niveles de toxicidad más altos tienden a estar asociados con menores valores de superviviencia. Específicamente, un incremento de una unidad en la toxicidad del agua resulta en un 13% de incremento en las posibilidades que la salamadra viva menos o igual a 10 días contra más de 30 días, y que la salamandra viva menos que o igual a 30 días versus más que 30 días. – Se muestra la verosimilitud logarítmica (log Likelihood) de las iteraciones de máxima verosimilitud junto con el estadístico G. Este estadístico prueba la hipótesis que todos los coeficientes asociados con los predictores son iguales a cero versus al menos un coeficiente no es cero. En este caso G = 14.713 con un valor p de 0.001, indicando que hay suficiente evidencia para concluir que al menos uno de los coeficientes estimados es diferente de cero.
Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Const(1) Const(2) -7.04343 -3.52273 1.68017 -4.19 0.000 1.47108 -2.39 0.017 Region 2 0.201456 0.496153 0.41 0.685 1.22 0.46 3.23 NivelToxico 0.121289 0.0340510 3.56 0.000 1.13 1.06 1.21
Log-Likelihood = -59.290 Test that all slopes are zero: G = 14.713, DF = 2, P-Value = 0.001
Prueba de bondad de ajuste: muestra tanto las pruebas de Pearson como deviance. En este ejemplo para Pearson se tiene un valor P de 0.463, y para la prueba de deviance es 0.918, indicando que no hay suficiente evidencia para afirmar que el modelo no ajusta los datos adecuadamente. Si el valor P es menor que el nivel de alfa seleccionado, la prueba rechaza la hipótesis de que el modelo ajusta los datos adecuadamente.
Goodness-of-Fit Tests
Method Chi-Square DF P Pearson 122.799 122 0.463 Deviance 100.898 122 0.918
Medidas de asociación: muestra una tabla de los números y porcentajes de parejas concordantes, discordantes y similares, y estadísticas de correlación de rango común. Estos valores miden la asociación entre las respuestas observadas y las probabilidades estimadas o pronosticadas. – La tabla de pares concordantes, discordantes y similares, se calcula emparejando las observaciones con diferentes valores de respuestas. Si se tienen 15 1s, 46 2s, y 12 3s, resultan en 15 x 46 + 15 x 12 + 46 x 12 = 1422 pares de diferentes valores de respuesta. Para pares incluyendo los valores de respuesta codificados menores (1-2 y 1-3 pares de valores en el ejemplo), un par es concordante si la probabilidad acumualtiva hasta el valor de respuesta más bajo (aquí 1) es mayor para la observación con el valor más bajo. De manera similar para otros pares. Para pares con respuestas 2 y 3, un par es concordante si la probabilidad acumulativa hasta 2 es mayor para la observación codificada como 2. El par es discordante si ocurre lo opuesto. El par es similar si las probabilidades son iguales. En este caso, 79.3% de pares son concordantes, 20.3% son discordantes, y 0.5% son similares. Se pueden usar estos valores como medida comparativa de predicción, por ejemplo para evaluar predictores de diferentes funciones de enlace.
– Se muestran resúmenes de pares concordantes y discordantes de SomersD, Goodman-Kruskal Gamma y la Tau-a de Kendall. Los números tienen el mismo numerador: el número de pares concordantes menos el número de pares discordantes. El denominador es el número total de pares con SomersD, el número total de pares excepto los similares con Goodman-Kruskal Gamma, y el número de todas las posibles observaciones para la Tau-a de Kendall. Estas medidas tienden a estar entre 0 y 1 donde los valores mayores indican una mejor capacidad predictiva del modelo.
Measures of Association: (Between the Response Variable and Predicted Probabilities)
Pairs Number Percent Summary Measures Concordant 1127 79.3 Somers' D 0.59 Discordant 288 20.3 Goodman-Kruskal Gamma 0.59 Ties 7 0.5 Kendall's Tau-a 0.32 Total 1422 100.0
10. REGRESIÓN LOGÍSTICA NOMINAL Usar la regression logística nominal para realizar regresión sobre una variable de respuesta nominal, usando un algoritmo iterativo de mínimos cuadrados reponderados, para obtener la estimación de máxima verosimilitud de los parámetros.
Las variables nominales son variables categóricas que tienen tres o más niveles posibles, sin un orden natural. Por ejemplo, los niveles en un estudio de gusto por la comida, puede incluir: crujiente, fresca y firme (crunchy, mushy, and crispy).
Ejemplo: Suponiendo que un director de escuela se interesa por identificar la materia favorita de los niños, como se asocia con su edad o con el método de enseñanza empleado. Se toman 30 niños, de 10 a 13 años, con clases de ciencias, matemáticas, y lenguaje, que emplean ya sea técnicas de enseñanza de exposición o discusión. Al final del año escolar, se les preguntó por su materia favorita. Se usa la regresión logística nominal porque la respuesta es categórica pero no tiene un órden implícito. Los datos considerados son los siguientes:
Instrucciones de Minitab: 1 2 3 Open worksheet EXH_REGR.MTW. Seleccionar Stat > Regression > Nominal Logistic Regression. En Response, seleccionar Subject. En Model, seleccionar TeachingMethod Age. En Factors (optional), seleccionar TeachingMethod. 4 Click Results. Seleccionar In addition, list of factor level values, and tests for terms with more than 1 degree of freedom. Click OK en cada ventana de diálogo. Los resultados se muestran a continuación:
Nominal Logistic Regression: Materia versus MetodoEnseñanza, Edad
Información de respuesta: muestra el número de observaciones que caen dentro de cada una de las categorías de respuesta (ciencias, matemáticas y artes del lenguaje).
Response Information
Variable Value Count Materia Matemáticas 11 (Reference Event) Ciencias 10 Artes 9 Total 30
Información de factores: muestra todos los factores en el modelo, el número de niveles para cada factor, y los valores de los niveles del factor. El nivel del factor que ha sido designado como el nivel de referencia, es el primer dato en Valores. Aquí, el esquema de codificación de default define el nivel de referencia como Discusión usando el orden alfabético.
Factor Information
Factor Levels Values MetodoEnseñanza 2 Discusión, Exposición
Tabla de regression logística: muestra los coeficientes estimados, el error estándar de los coeficientes, los valores Z, los valores p. Cuando se utiliza la función de enlace logit, se muestran las tasas de posibilidades calculadas, y un intervalo de confianza del 95% para la tasa de posibilidades. El coeficiente asociado con un predictor es el cambio estimado en la función logia con el cambio de una unidad en el predictor, asumiendo que todos los otros factores y covariados permanecen constantes. – Si hay k respuestas distintas, Minitab estima k-1 conjuntos de parámetros estimados, denominados Logia(1) y Logia (2). Estas son diferencias estimadas en logaritmo de posibilidades o logias de matemáticas y artes de lenguaje, respectivamente, comparado con la ciencia como el evento de referencia. Cada conjunto contiene una constante y coeficientes para los factores, aquí el método de enseñanza, y el covariado edad. El coeficiente del método de enseñanza es el cambio estimado en el
Logit cuando el método de enseñanza sea exposción comparado a cuando sea discusión, manteniendo la edad constante. El coeficiente de la edad es el cambio estimado en el logit con un año de incremento en edad manteniendo constante el método de enseñanza. Estos conjuntos de estimados de parámetros dan líneas no paralelas para los valores de respuesta. – El primer conjunto de logiats estimados, etiquetados como Logia(1), son los parámetros estimados del cambio en Logias de matemáticas respecto al evento de referencia, ciencia. Como el valor p tiene valores de 0.548 y 0.756 para el método de enseñanza y edad, indica que hay insuficiente evidencia para concluir que un cambio en el método de enseñanza de discusión a exposición, o en edad afecten la selección de materia favorita cuando se compara con la ciencia. – El segundo conjunto de logias estimados, Logia(2), son los parámetros estimados del cambio en Logias de artes del lenguaje respecto al evento de referencia ciencia. Los valores p de 0.044 y 0.083 para método de enseñanza y edad, respectivamente, indica que hay suficiente evidencia, si los valores p son menores al valor aceptable de alfa, se concluye que la selección favorece a la ciencia. – El coeficiente positivo del método de enseñanza indica que los estudiantes que se les aplica el método de enseñanza de exposición, prefieren las artes del lenguaje sobre la ciencia comparado a estudiantes que se les da un método de enseñanza de discusión. La tasa estimada de posibilidades de 15.96 indica que las posibilidades de seleccionar el lenguaje sobre la ciencia es de alrededor de 16 veces más alto para los estudiantes, cuando el método de enseñanza cambia de discusión a lectura. El coeficiente positivo asociado con la edad indica que los estudiantes tienden a preferir las artes del lenguaje sobre las ciencias confoirme se hacen más maduros.
Logistic Regression Table 95% Odds CI Predictor Coef SE Coef Z P Ratio Lower Logit 1: (math/science) Constant TeachingMethod lecture -1.12266 4.56425 -0.25 0.806
-0.563115 0.937591 -0.60 0.548 0.57 0.09 Age 0.124674 0.401079 0.31 0.756 1.13 0.52 Logit 2: (arts/science) Constant TeachingMethod lecture -13.8485 7.24256 -1.91 0.056
2.76992 1.37209 2.02 0.044 15.96 1.08 Age 1.01354 0.584494 1.73 0.083 2.76 0.88 Predictor Upper Logit 1: (math/science) Constant TeachingMethod lecture 3.58 Age 2.49 Logit 2: (arts/science) Constant TeachingMethod lecture 234.91 Age 8.66
Log-Likelihood: de las iteraciones de máxima verosimilitud junto con el estadístico G. G es la diferencia en -2 log-likelihood (-2LL) para un modelo el cual sólo tiene los términos de la constante y el modelo ajustado indicado en la Tabla de la Regresión logística. G prueba la hipótesis nula que los coeficientes asociados con los predictores son iguales a cero versus que no todo son cero. G = 12.825 con un valor p de 0.012, indican que para alfa = 0.05, hay evidencia suficiente que al menos uno de los coeficientes es diferente de cero.
Log-Likelihood = -26.446 Test that all slopes are zero: G = 12.825, DF = 4, P-Value = 0.012
Prueba de bondad de ajuste: muestra tanto las pruebas de Pearson como deviance. En este ejemplo para Pearson se tiene un valor P de 0.730, y para la prueba de deviance es 0.640, indicando que no hay suficiente evidencia para afirmar que el modelo no ajusta los datos adecuadamente. Si el valor P es menor que el nivel de alfa seleccionado, la prueba rechaza la hipótesis de que el modelo ajusta los datos adecuadamente.
Goodness-of-Fit Tests Method Chi-Square DF P Pearson 6.95295 10 0.730 Deviance 7.88622 10 0.640
BIBLIOGRAFÍA ?
?
? Montgomery, Doglas C., Peck, Elizabeth A., Introduction to Linear Regression Analysis, John Wiley and Sons, 2º edition, Inc., New York, 1992
Chatterjee, Samprit, Price, Bertram, Regression Analysis by Example, John Wiley and Sons, Inc., 2º edition, 1991
Draper, Norman R., Smith, Harry, Applied Regression Analysis, John Wiley and Sons, Inc., New York, 1998
TAREA NO. 1 DE ANALISIS DE REGRESIÓN Con apoyo de Minitab 11/11/00 PROBLEMA 2.1
Calcular lo siguiente (Y vs X8):
a) La recta de regresión
The regression equation is Y = 21.8 – 0.00703 X8
b) La tabla ANOVA y prueba de significancia
Analysis of Variance Source DF SS MS F P Regression 1 178.09 178.09 31.10 0.000 Residual Error 26 148.87 5.73 Total 27 326.96 Ftablas=F1,26,0.05=4.23 Nota: Como p = 0 equivale a Fc > F tablas y se rechaza la Ho: Beta1 = 0 quiere decir que existe la recta de regresión
c) El intervalo de confianza al 95% de la pendiente b1 Predictor Coef StDev Constant 21.788 2.696 T P 8.08 0.000 X8 -0.007025 0.001260 -5.58 0.000
El intervalo de confianza para ?1 se calcula como sigue: t0.025,26 = 2.056 b1 ? t*std dev (Predict.X8) =-0.007025 ? 2.056* (0.00126) = -0.0096 < = ?1 < = -0.004435;
El iuntervalo de confianza para ?0 es: b0 ? t*std dev (Constant) =21.788 ? 2.056* (2.696);
d) % de la variabilidad explicada por la regresión
R-Sq = 54.5%
e) El intervalo de confianza a un 95% para la media del valor estimado de Y, cuando Xo = 2000 yardas (corresponde a CI). Predicted Values Fit StDev Fit 95.0%CI para media 95.0% PI p.valor futuro 7.738 0.473 ( 6.766; 8.710) ( 2.724; 12.752)
f) Probar la hipótesis nula de que el coeficiente de correlación es cero. Ho: ? = 0 ?5.58055 0.738234 26 1?0.545 t0 ? Ttablas 0.025,26 = 2.056 Cómo to > ttablas, se rechaza Ho. Es decir que ? es diferente de cero.
g) Probar la hipótesis nula de que el coeficiente de correlación es Ho: ?0 = -0.80 Zo = -0.76006 Z tablas = Z0.025 = 1.96 Cómo Zo < |Ztablas| no hay evidencia suficiente para rechazar Ho
h) Encontrar el intervalo de confianza del 95% para ?. – 0.87134< = ? < = – 0.50396
i) Con Minitab construir las sig. gráficas de residuos y comentar acerca de la adecuación del modelo – Gráfica de probabilidad normal – Gráfica de residuos contra Yi est. – Gráfica de residuos contra Xi8.. Los residuos muestran una variación normal con varianza constante j) Graficar los residuos contra el porcentaje de juegos ganados X7i, ¿se mejora el modelo agregando esta variable?.
No se mejora la distribución de los residuos
The regression equation is Y = 17.9 – 0.00654 X8 + 0.048 X7 S = 2.432 R-Sq = 54.8% R-Sq(adj) = 51.1%
Al agregar la nueva variable X7, el modelo no mejora realmente (comparar R^2)
PROBLEMA 2.2 Si las yardas ganadas se limitan a 1800. Hallar el intervalo de predicción al 90% en el número de juegos ganados (corresponde a PI). t(0.05,26) = 1.705616 Alfa = 0.1 Intervalo 8.1238 < = Ymedia < =10.16 4.936< =Ypuntual< =13.35 PROBLEMA 2.3 Calcular lo siguiente:
a) La recta de regresión The regression equation is Y1 = 607 – 21.4 X4
b) La tabla ANOVA y prueba de significancia Analysis of Variance Source DF SS Regression 1 10579 Residual Error 27 4103 Total 28 14682 MS F P 10579 69.61 0.000 152 Ftablas=F1,27,.05=4.21 Como Fc=69.61 es mayor que Ftablas=4.21, se rechaza Ho y existe la regresión
c) El intervalo de confianza al 99% de la pendiente ?1 Predictor Coef StDev T P Constant 607.10 42.91 14.15 0.000 X4 -21.402 2.565 -8.34 0.000 El intervalo de confianza para ?1 se calcula como sigue: t0.005,27 = 2.771 7.1076 b1 ? t*std dev (Predict.X4) =-21.402 ? 2.771* (2.565) = -28.5096 < = ?1 < = -14.2943
d) % de la variabilidad explicada por la regresión R^2 R-Sq = 72.1% R-Sq(adj) = 71.0% e) El intervalo de confianza a un 95% para la media del valor estimado de Y, cuando Xo = 16.5 (corresponde a CI). Predicted Values
Fit StDev Fit 95.0% CI para media 95.0% PI p.valor futuro 253.96 2.35 ( 249.15; 258.78) ( 228.21; 279.71)
f) Probar la hipótesis nula de que el coeficiente de correlación es cero. Ho: ? = 0
?8.3427 0.84882 27 1?0.7205 t0 ? Ttablas 0.025,27 = 2.052 Cómo to > Ttablas, se rechaza Ho. Es decir que ? es diferente de cero.
g) Probar la hipótesis nula de que el coeficiente de correlación es ?0 = – 0.80. Zo = 0.78172 Z tablas = Z0.025 = 1.96 Cómo Zo < |Ztablas| no hay evidencia suficiente para rechazar Ho
h) Encontrar el intervalo de confianza del 95% para ?. – 0.927 < = ? < = – 0.7
i) Con Minitab construir las sig. gráficas de residuos y comentar acerca de la adecuación del modelo – Gráfica de probabilidad normal – Gráfica de residuos contra Yi est. – Gráfica de residuos contra Xi4.
Unusual Observations Obs X4 Y1 Fit StDev Fit Residual St Resid 22 17.6 254.50 229.99 3.28 24.51 2.06R 24 19.1 181.50 199.39 6.44 25 16.5 227.50 253.75 2.34 -17.89 -26.25 -1.70 X -2.17R R denotes an observation with a large standardized residual X denotes an observation whose X value gives it large influence.
Los residuos no muestran una distribución aleatoria
PROBLEMA 2.7 a) Ecuación de regresión The regression equation is Y78 = 77.9 + 11.8 X78
b) Probar la hipótesis nula de que Ho: ?1 = 0
Analysis of Variance Source DF SS Regressio 1 148.31 Residual 18 232.83 error Total 19 381.15 MS F P 148.31 11.47 0.003 12.94
Ftablas = F0.05,1,18=4.41 Cómo Fc > F tablas se rechaza la hipótesis Ho, implicando ?1 ? 0
c) Calcular R^2
R-Sq = 38.9%
d) Encontrar el intervalo de confianza al 95% para la pendiente: Predictor Coef StDev T P
Constant X78 77.863 11.801 4.199 3.485 18.54 0.000 3.39 0.003 t0.025,18 = 2.101 b1 ? t*std dev (Predict.X78) =11.801 ? 2.101* (3.485) = 4.47699 < = ?1 < = 19.12301
e) Encontrar el intervalo de confianza para la pureza media si el % de hidrocarbono es de 1.00
Predicted Values
Fit StDev Fit 95.0% CI p. la media 95.0% PI p. valor futuro 89.664 1.025 ( 87.510; 91.818) ( 81.807; 97.521)
PROBLEMA 2.8 a) ¿Cuál es la correlación entre las dos variables?
R-Sq = 38.9% entonces r = 0.6237
b) Probar la Hipótesis nula Ho: ? = 0 ?3.38527 0.6237 18 1?0.389 t0 ? Ttablas 0.025,18 = 2.101 Cómo to > Ttablas, se rechaza Ho. Es decir que ? es diferente de cero.
c) Contruir un intervalo de confianza del 95% para ?.
0.25139 < = ? < = 0.8356
PROBLEMA 2.9 a) Ecuación de regresión
The regression equation is Y9 = – 6.33 + 9.21 X9
b) Probar la significancia de la regresión
Analysis of Variance 0.000 Source DF SS Regressi 1 280590 Residual 10 38 MS F P 280590 74122.78 4 error Total 11 280627
Como el valor de p es cero, se rechaza la hipótesis Ho: ?1 = 0, por tanto existe la regresión.
c) Si se incrementa la temperatura ambiente promedio en un grado, el consumo de vapor se incrementa en 10 unidades. ¿se soporta esta afirmación?.
Column Mean Mean of X9 = 46.500; se incrementa en un grado
S(?) ???i2 ??'? ? (Y ? X?)'(Y ? X?) Predicted Values
Fit StDev Fit 95.0% CI 95.0% PI 421.862 0.562 ( 420.610; 423.113) ( 417.350; 426.374) 431.070 0.563 ( 429.816; 432.324) ( 426.557; 435.583)
Por los resultados observados se cumple la afirmación
d) Intervalo de predicción con un 99% de nivel de confianza para Xo = 58.
Predicted Values
Fit StDev Fit 99.0% CI 99.0% PI 527.759 0.683 ( 525.593; 529.925) ( 521.220; 534.298)
PROBLEMA 2.10 a) Encontrar el coeficiente de correlación r
R-Sq = 100.0% por tanto r = 1
b ) Probar la Hipótesis nula Ho: ? = 0 ? 272.25 0.999 10 1?0.999 t0 ? Ttablas 0.005,10 = 1.812 (3.1)
(3.2) Cómo to > Ttablas, se rechaza Ho. Es decir que ? es diferente de cero.
c) Contruir un intervalo de confianza del 95% para ?.
0.99 < = ? < = 0.999
FÓRMULAS DE REGRESIÓN LINEAL MÚLTIPLE Modelos de Regresión Múltiple
Asumiendo que N observaciones de la respuesta se tiene: Yu ? ?0 ??1Xu1 ??2Xu2 ?…….??kXuk ??u
Para N observaciones el modelo en forma matricial es:
Y = X ? + ? = [1 : D] ? + ?
k es el número de variables independientes o regresores Y es un vector N x 1. X es una matriz de orden N x (k + 1), donde la primera columna es de 1s. ? es un vector de orden (k + 1) x 1. ? es un vector de orden N x 1. D es la matriz de Xij con i = 1, 2, …, N; j = 1, 2, ……, k
Se trata de encontrar el vector de estimadores de mínimos cuadrados b que minimicen: n
i?1 quedando XX b = X Y (3.4)
b = (XX) XY Var(b) = C = (XX) ? La covarianza del elemento bi y bj de b esCovar(cij) ? cij? . SST ??(Yu ?Y)2 (3.5) A) VECTOR DE ESTIMADORES DE MINIMOS CUADRADOS b de ? -1
B) VARIANZAS Y COVARIANZAS DE b -1 2 (3.6) El elemento (ii) de esta matriz cii? 2 ?Var(bi) es la varianza del elemento bi . El error estándar de bi es la raíz cuadrada positiva de la varianza de bi o sea: se.bi ? cii? 2 (3.7) 2 (3.8) La desviación estándar se estima como sigue: n
i?1 SSE ?(Y ? Xb)'(Y ? Xb) ?Y'Y ?b'X'Y ?Y'Xb?b'X'Xb ?Y'Y ?2b'X'Y ?b'X'Xb SSE N ? p s2 ? MSE ? (3.15) C) INTERVALO DE CONFIANZA PARA LOS COEFICIENTES ?j Con intervalo de confianza 100(1 – ? )% , para j = 0, 1, …., k es:
bj ?t? /2,n?pse(bj) ? ? j ? bj ?t? /2,n?pse(b j)
Donde se(bj) es el error estándar del coeficiente de regresión bj. se(bj) ? S 2C jj (3.17)
(3.18) Siendo Cjj el j-ésimo elemento de la matriz (XX )-1 . D) INTERVALO DE CONFIANZA PARA LA RESPUESTA MEDIA Yo en Xo El intervalo de confianza para el 100( 1 – ? ) % es: Y0 ?t? /2,n?p S 2X'0 (X'X)?1X0 ?Y0 ?Y0 ?t? /2,n?p S 2X'0 (X'X)?1X 0 (3.21) ?1,2,…,k E) TABLA ANOVA PARA LA REGRESIÓN H0 :?1 ? ?2 ?….? ?k ?0; Ha :??i ?0,i Ho se rechazará si Ft >= Fo
Fuente de MS MSR MSE F0 . MSR/MSE Ft=F?,p-1,N-p variación Regresión Residuos Total SS SSR SSE SST=SSR+SSE df k= p-1 nk1= N-p n 1=k+(n-k+1) Donde: N __
u?1 con N-1 grados de libertad (3.24)
^ SSR ??(Y(xu)?Y)2 con p (parámetros) 1 grados de libertad ^ SSE ??(Yu ?Y(xu))2 con (N-1) (p 1) grados de libertad SSR ? b'X'Y ? (3.25)
(3.26) N __
u?1
N
u?1
En forma matricial se tiene: (1'Y)2 N SST ?Y'Y ? (3.27) (3.28) (1'Y)2 N SSE ?Y'Y ?b'X'Y F) PRUEBA DE LA SIGNIFICANCIA DE LOS COEFICIENTES INDIVIDUALES BETAx H0 : ? j ? 0 H1 : ? j ? 0 Si no se rechaza Ho quiere decir que el regresor Xj puede ser excluido del modelo, Ho es rechazada si t0 ? t? /2,n?k?1, donde: bj se(bj) t0 ? G) INTERVALO DE PREDICCIÓN PARA LA RESPUESTA Yo en Xo El intervalo de confianza para el 100( 1 – ? ) % es: Y0 ?t? /2,n?p S 2(1? X'0 (X'X)?1X0) ?Y0 ?Y0 ?t? /2,n?p S 2(1? X'0 (X'X)?1X 0)
FORMULAS
Bibliografía [1] [2] [3] [4] A. Agresti (1984). Analysis of Ordinal Categorical Data. John Wiley & Sons, Inc. A. Agresti (1990). Categorical Data Analysis. John Wiley & Sons, Inc. D.A. Belsley, E. Kuh, and R.E. Welsch (1980). Regression Diagnostics. John Wiley & Sons, Inc. A. Bhargava (1989). "Missing Observations and the Use of the Durbin-Watson Statistic," Biometrik, 76, 828 831. [5] C.C. Brown (1982). "On a Goodness of Fit Test for the Logistic Model Based on Score Statistics," Communications in Statistics, 11, 1087 1105. [6] D.A. Burn and T.A. Ryan, Jr. (1983). "A Diagnostic Test for Lack of Fit in Regression Models," ASA 1983 Proceedings of the Statistical Computing Section, 286 290. [7] R.D. Cook (1977). "Detection of Influential Observations in Linear Regression," Technometrics, 19, 15 18. [8] [9] R.D. Cook and S. Weisberg (1982). Residuals and Influence in Regression. Chapman and Hall. N.R. Draper and H. Smith (1981). Applied Regression Analysis, Second Edition. John Wiley & Sons, Inc. [10] [11] S.E. Fienberg (1987). The Analysis of Cross-Classified Categorical Data. The MIT Press. I.E. Frank and J.H. Friedman (1993). "A Statistical View of Some Chemometrics Regression Tool," Technometrics, 35, 109 135. [12] I.E. Frank and B.R. Kowalski (1984). "Prediction of Wine Quality and Geographic Origin from Chemical Measurements by Partial Least-Squares Regression Modeling," Analytica Chimica Acta, 162, 241 251. [13] M.J. Garside (1971). "Some Computational Procedures for the Best Subset Problem," Applied Statistics, 20, 8 15. [14] P. Geladi and B. Kowalski (1986). "Partial Least-Squares Regression: A Tutorial," Analytica Chimica Acta, 185, 1 17. [15] P. Geladi and B. Kowalski (1986). "An Example of 2-Block Predictive Partial Least-Squares Regression with Simulated Data," Analytica Chimica Acta, 185, 19-32. [16] James H. Goodnight (1979). "A Tutorial on the Sweep Operator," The American Statistician, 33, 149 158. [17] W.W. Hauck and A. Donner (1977). "Wald's test as applied to hypotheses in logit analysis," Journal of the American Statistical Association, 72, 851-853. [18] D.C. Hoaglin and R.E. Welsch (1978). "The Hat Matrix in Regression and ANOVA," The American Statistician, 32, 17 22. [19] R.R. Hocking (1976). "A Biometrics Invited Paper: The Analysis and Selection of Variables in Linear Regression," Biometrics, 32, 1 49. [20] [21] A. Hoskuldsson (1988). "PLS Regression Methods," Journal of Chemometrics, 2, 211 228. D.W. Hosmer and S. Lemeshow (2000). Applied Logistic Regression. 2nd ed. John Wiley & Sons, Inc. [22] LINPACK (1979). Linpack User's Guide by J.J. Dongarra, J.R. Bunch, C.B. Moler, and G.W. Stewart, Society for Industrial and Applied Mathematics, Philadelphia, PA. [23] A. Lorber, L. Wangen, and B. Kowalski (1987). "A Theoretical Foundation for the PLS Algorithm," Journal of Chemometrics, 1, 19 31. [24] [25] [26] J.H. Maindonald (1984). Statistical Computation. John Wiley & Sons, Inc. P. McCullagh and J.A. Nelder (1992). Generalized Linear Model. Chapman & Hall. W. Miller (1978). "Performing Armchair Roundoff Analysis of Statistical Algorithms," Communications in Statistics, 243 255. [27] D.C. Montgomery and E.A. Peck (1982). Introduction to Linear Regression Analysis. John Wiley & Sons. [28] J. Neter, W. Wasserman, and M. Kutner (1985). Applied Linear Statistical Models. Richard D. Irwin, Inc. [29] S.J. Press and S. Wilson (1978). "Choosing Between Logistic Regression and Discriminant Analysis," Journal of the American Statistical Association, 73, 699-705. [30] M. Schatzoff, R. Tsao, and S. Fienberg (1968). "Efficient Calculation of All Possible Regressions," Technometrics, 10, 769 779. [31] G.W. Stewart (1973). Introduction to Matrix Computations. Academic Press.
[32] Hall. [33] R.A. Thisted (1988). Elements of Statistical Computing: Numerical Computation. Chapman &
P. Velleman and R. Welsch (1981). "Efficient Computation of Regression Diagnostics," The American Statistician, 35, 234 242. [34] P.F. Velleman, J. Seaman, and I.E. Allen (1977). "Evaluating Package Regression Routines," ASA 1977 Proceedings of the Statistical Computing Section. [35] [36] S. Weisberg (1980). Applied Linear Regression. John Wiley & Sons, Inc. H. Wold (1975). "Soft Modeling by Latent Variables; the Nonlinear Iterative Partial Least Squares Approach," in Perspectives in Probability and Statistics, Papers in Honour of M.S. Bartlett, ed. J. Gani, Academic Press.
Página anterior | Volver al principio del trabajo | Página siguiente |