- La regresión logística
- Data – hepatitis
- Aplicación de la regresión logística
- La regresión Probit
- Aplicaciones de la regresión Probit
- Ejemplo de un análisis Probit
La regresión logística
La regresión logística es una herramienta estadística con una gran capacidad para el análisis de datos de la investigación clínica, de la investigación tecnológica, de la ingeniería y de la epidemiología.
La regresión logística se usa para analizar los problemas en los cuales hay una o más variables independientes que determinan un resultado que se mide con una variable dicótoma que toma solamente dos posibles resultados.
También puede ser usada para estimar la probabilidad de aparición de cada una de las posibilidades de un suceso con más de dos categorías (politómico).
En la regresión logística, la variable dependiente es binaria o dicótoma, es decir contiene solamente los datos cifrados como 1 (VERDADERO) o 0 (FALSO), con ella se utiliza un modelo matemático, la transformación logit, para predecir el comportamiento de la variable dependiente.
La regresión logística intenta modelar la relación entre la probabilidad (proporción) de una respuesta positiva y las variables explicativas, los valores numéricos de 0 y 1 se asignan a las dos categorías de una variable binaria, el 0 representa una respuesta negativa y el 1 representa una respuesta positiva, la media de esta variable será la proporción de respuestas positivas
Esta técnica modela cómo influye en la probabilidad de aparición de un suceso, habitualmente dicotómico, la presencia o no de diversos factores y el valor o nivel de los mismos, ella precisa el efecto de un grupo de variables, consideradas potencialmente influyentes, sobre la ocurrencia de un determinado proceso.
La regresión logística compite con el análisis discriminante como un método para analizar las variables de respuesta discreta, la regresión logística es más versátil y más adecuada que el análisis discriminante porque no asumen que las variables independientes se distribuyen normalmente.
Esta herramienta resulta de gran utilidad para establecer el efecto de un grupo de variables, consideradas potencialmente influyentes, sobre la ocurrencia de un determinado proceso.
Se clasifica el valor de la variable respuesta como 0 cuando no se presenta el suceso y con el valor 1 cuando sí está presente y si se busca cuantificar la posible relación entre la presencia del suceso y, un posible factor de riesgo y se toma cómo variable dependiente la probabilidad p de que ocurra el suceso y se construye la siguiente función:
Ln(p/1-p)
La relación p/(1-p) es llamada las probabilidades y el logit es el logaritmo de las probabilidades, o sólo probabilidades de registro.
Si se tiene una variable p que puede tomar cualquier valor, por lo se puede elaborar para ella una ecuación de regresión tradicional:
Ln(p/1-p) = a + bx
Este es el tipo de ecuación que se conoce como modelo logístico, donde puede haber varios factores:
Ln(p/1-p) = b1X1+ b2X2+ b3X3 + b4X4
El odds (OR)
Una manera, de representar la probabilidad de ocurrencia de un evento es mediante el cociente entre la probabilidad de que ocurra el evento y la probabilidad de que no ocurra, este cociente, se denomina odds e indica cuanto más probable es la ocurrencia del evento que su no ocurrencia, y es un parámetro de cuantificación de riesgo.
odds = (p/1-p)
donde p es la probabilidad de que ocurra el suceso.
El OR es parecido al riesgo relativo que corresponde al cociente de la probabilidad de que aparezca un suceso cuando el factor está presente dividido por la probabilidad de que aparezca un suceso cuando el factor no está presente.
Si en la ecuación de regresión se tiene un factor dicotómico, el coeficiente b de la ecuación para el factor dicotómico está directamente relacionado con el OR de la presencia o no presencia del factor.
El OR = exp(b) es una medida que cuantifica el riesgo que representa poseer el factor correspondiente respecto a no poseerlo.
Ejemplo
Sea p(x) la probabilidad de éxito cuando el valor de la variable predictora es x.
Entonces será:
Cuando x = 50, un éxito es dos veces tan probable como una falla, los odds son 2 a 1.
Regresión Logística
Caso 1: Hepatitis
Para estudiar, la asociación entre la hepatitis B y el consumo de alcohol, el consumo de drogas y el ambiente, se dispone de una data hipotética donde se registra el consumo diario de alcohol en gramos , el consumo de otras drogas como 0: no y 1: sí, 10 ambientes y 0: hepatitis y 1: no hepatitis.
Los resultados de la regresión logística
Los resultados de la regresión logística se presentan en una tabla en la que aparecerá para cada variable el valor del coeficiente; su error estándar; un parámetro, denominado de chi² Wald, que permite contrastar si el coeficiente es significativamente diferente de 0 y el valor de p para ese contraste; así como los OR de cada variable, junto con su intervalo de confianza para el 95 % de confianza.
SOLUCION
PASO UNO
Regresión Logística
Variable Dependiente: HEPATITIS
Factores:
CONSUMO ALCOHOL
DROGAS
AMBIENTE
La salida demuestra los resultados de correr un modelo de regresión logística para describir la relación entre HEPATITIS y 3 variables independientes: CONSUMO ALCOHOL, DROGAS y AMBIENTE
Máximo Verosímil
Parámetro | Estimado | Error | Odds Ratio | |
CONSTANTE | 3,91042 | 1,78831 | ||
CONSUMO ALCOHOL | -0,0664747 | 0,0321958 | 0,935687 | |
DROGAS | -4,16478 | 1,48639 | 0,0155331 | |
AMBIENTE | 0,0982208 | 0,251774 | 1,10321 | |
n | 30 | |||
MSE | 0,00915563 | |||
MAE | 0,241008 | |||
ME | 0,0452538 |
Análisis de Errores
Fuente | Errores | Df | P-Valor | |||||
Modelo | 21,5897 | 3 | 0,0001 | |||||
Residual | 16,6011 | 26 | 0,9206 | |||||
Total (corr.) | 38,1909 | 29 |
Porcentaje de errores explicado por el modelo = 56,5312
Porcentaje Ajustado = 35,5837
Test de Verosimilitud
Factor | Chi-cuadrado | Df | P-Value | |||||||
CONSUMO ALCOHOL | 6,63749 | 1 | 0,0100 | |||||||
DROGAS | 12,8008 | 1 | 0,0003 | |||||||
AMBIENTE | 0,153101 | 1 | 0,6956 |
La ecuación del modelo es: HEPATITIS = exp(eta)/(1+exp(eta))
donde eta = 3.910 – ALCOHOL 0,06647*CONSUMO – 4,164*DROGAS + 0,09822*AMBIENTE
El P-valor para el modelo en el análisis es menor de 0.05, por lo que hay una relación estadística significativa entre las variables en el nivel de confianza del 95.0%.
El P-valor para las residuales es mayor o igual 0.05, indicando que el modelo no es perceptiblemente peor que el mejor modelo para estos datos al 95.0% de confianza o a un nivel de confianza más alto.
El porcentaje del error de HEPATITIS explicado por el modelo es el 56.5312%, esta estadística es similar a la estadística R-Ajustada
El porcentaje ajustado que es más conveniente para comparar modelos con diversos números de variables independientes, es del 35.5837%.
En la determinación de si el modelo puede ser simplificado, se nota que el P-valor más alto para las pruebas de probabilidad es 0.6956, perteneciendo a AMBIENTE.
Por ser el P-valor mayor o igual a 0.05, ese término no es estadísticamente significativo a un nivel de confianza de 95.0% o a un nivel de confianza más alto.
Por lo tanto, se debe considerar la eliminación de la variable AMBIENTE del modelo
PASO DOS
Regresión Logística – HEPATITIS
Variable Dependiente: HEPATITIS
Factores:
CONSUMO ALCOHOL DROGAS
La salida muestra los resultados de correr un modelo de regresión logístico para describir la relación entre la HEPATITIS y las variables independientes: CONSUMO DE ALCOHOL y DROGAS
Máximo Verosímil
Standard | Estimada | |||
Parámetro | Estimados | Error | Odds Ratio | |
CONSTANTE | 4,26428 | 1,57043 | ||
CONSUMO ALCOHOL | -0,0613085 | 0,0280866 | 0,940533 | |
DROGAS | -4,19821 | 1,48344 | 0,0150225 |
Análisis de Errores
Fuente | Errores | Df | P-Valor | |||||
Modelo | 21,4366 | 2 | 0,0000 | |||||
Residual | 16,7542 | 27 | 0,9370 | |||||
Total (corr.) | 38,1909 | 29 |
Porcentaje de errores explicado por el modelo = 56,1303
Pocentaje Ajustado = 40,4197
Test de Verosimilitud
Factor | Chi-cuadrado | Df | P-Valor | |||||||
CONSUMO ALCOHOL | 6,79961 | 1 | 0,0091 | |||||||
DROGAS | 13,1689 | 1 | 0,0003 |
Análisis de Errores
Estimación | |
N | 30 |
MSE | 0,00929903 |
MAE | 0,244613 |
MAPE | |
ME | 0,042021 |
El porcentaje de los errores en la HEPATITIS explicada por el modelo con dos factores es del 56.13%, esta estadística es similar a la estadística R-Ajustada
El porcentaje ajustado, que es más conveniente para comparar modelos con diversos números de variables independientes, es de 40.4197%.
Para determinar si el modelo puede ser simplificado, se observa que el P-valor más alto para las pruebas de probabilidad es 0.0091, perteneciendo al CONSUMO de ALCOHOL, este P-valor es menor de 0.05 y es un estadístico significativo a un nivel del 95.0%. Por lo tanto, no se debe remover ninguna variable del modelo.
Por ser el P-valor del modelo menor de 0.05, hay una relación estadística significativa entre las variables a un nivel de confianza del 95.0%.
El P-valor para las residuales es mayor o igual 0.05, indicando que el modelo no es peor que el mejor de los modelos para estos datos a un nivel de confianza 95.0% o para un nivel de confianza más alto.
La ecuación del modelo final es: HEPATITIS = exp(eta)/(1+exp(eta) Donde:
eta=4,26428 -0,0613085*CONSUMO ALCOHOL – 4,19821*DROGAS
REGRESION LOGÍSTICA
CASO 2: COLISIONES
Se propone aplicar la regresión logística para determinar la asociación entre el resultado fatal de las colisiones de autos y la edad del conductor, la velocidad del auto y la aceleración, se dispone de una data hipotética donde se registra la edad en años, la velocidad , la aceleración y el resultado fatal: 0: fatal y 1: no fatal.
Regresión Logística – FATAL
Variable dependiente: FATAL
Factores:
EDAD
VELOCIDAD
ACELERACION
Modelo Estimado de Regresión (Máxima Verosimilitud)
Error | Razón de Momios | |||
Parámetro | Estimado | Estándar | Estimada | |
CONSTANTE | -16,9845 | 5,14861 | ||
EDAD | 0,162501 | 0,041448 | 1,17645 | |
VELOCIDAD | 0,233906 | 0,0862681 | 1,26353 |
Análisis de Desviación
Fuente | Desviación | Gl | Valor-P | |||||
Modelo | 33,3408 | 2 | 0,0000 | |||||
Residuo | 45,3315 | 55 | 0,8206 | |||||
Total (corr.) | 78,6723 | 57 |
Porcentaje de desviación explicado por el modelo = 42,3793
Porcentaje ajustado = 34,7527
Pruebas de Razón de Verosimilitud
Factor | Chi-Cuadrada | Gl | Valor-P | ||||||
EDAD | 29,9333 | 1 | 0,0000 | ||||||
VELOCIDAD | 10,0497 | 1 | 0,0015 |
Análisis de Residuos
Estimación | ||
n | 58 | |
CME | 0,0221508 | |
MAE | 0,340955 | |
ME | 0,00127246 |
Selección de factores por etapas
Método: selección hacia atrás
P-para-introducir: 0,05
P-para-eliminar: 0,05
Paso 1:
3 factores en el modelo. 54 g.l. para el error.
Porcentaje de desviación explicada = 44,10% Porcentaje ajustado = 33,93%
Paso 2:
Eliminando factor ACELERACION con P-para-eliminar = 0,244299
2 factores en el modelo. 55 g.l. para el error.
Porcentaje de desviación explicada = 42,38% Porcentaje ajustado = 34,75%
Modelo final seleccionado.
La salida muestra los resultados de ajustar un modelo de regresión logística para describir la relación entre FATAL y 3 variable(s) independiente(s). La ecuación del modelo ajustado es
FATAL = exp(eta)/(1+exp(eta)) en donde
eta = -16,9845 + 0,162501*EDAD + 0,233906*VELOCIDAD
Como el valor-P de la tabla de Análisis de Desviaciones es menor que 0,05, existe una relación estadísticamente significativa entre las variables, con un nivel de confianza del 95,0%. Además, el valor-P para los residuos es mayor o igual que 0,05, indicando que el modelo no es significativamente peor que el mejor modelo posible para estos datos con un nivel de confianza del 95,0% o mayor.
También se muestra que el porcentaje de desviación de FATAL explicado por el modelo es igual a 42,3793%. Este estadístico es similar al estadístico R-Cuadrada habitual. El porcentaje ajustado, que es más apropiado para comparar modelos con diferente número de variables independientes, es 34,7527%.
Para determinar si el modelo puede ser simplificado, note que el valor-P más alto para las pruebas de verosimilitud es 0,0015, que pertenece a VELOCIDAD. Como el valor-P es menor que 0,05, ese término es estadísticamente significativo al nivel de confianza del 95,0%. Consecuentemente, usted probablemente no quisiera eliminar ninguna variable del modelo.
Prueba Chi-Cuadrada de Bondad de Ajuste
Intervalo | CIERTO | CIERTO | FALSO | FALSO | ||||||||||
Clase | Logit | n | Observado | Esperado | Observado | Esperado | ||||||||
1 | menor que -1,71418 | 12 | 1,0 | 1,04084 | 11,0 | 10,9592 | ||||||||
2 | -1,71418 a 0,203801 | 13 | 4,0 | 4,5982 | 9,0 | 8,4018 | ||||||||
3 | 0,203801 a 1,41271 | 11 | 9,0 | 7,92633 | 2,0 | 3,07367 | ||||||||
4 | 1,41271 a 2,93429 | 12 | 10,0 | 10,6205 | 2,0 | 1,37951 | ||||||||
5 | 2,93429 o mayor | 10 | 10,0 | 9,81415 | 0,0 | 0,185851 | ||||||||
Total | 58 | 34,0 | 24,0 |
Chi-cuadrada = 1,14736 con 3 g.l. valor-P = 0,765653
Esta prueba determina si la función logística ajusta adecuadamente a los datos observados. Como el valor-P es mayor o igual que 0,05, no hay razón para rechazar la adecuación del modelo ajustado con un nivel de confianza del 95,0% ó mayor.
Intervalos de confianza del 95,0% para los estimados de los coeficientes
Error | ||||
Parámetro | Estimado | Estándar | Límite Inferior | Límite Superior |
CONSTANTE | -16,9845 | 5,14861 | -27,3026 | -6,66641 |
EDAD | 0,162501 | 0,041448 | 0,0794369 | 0,245564 |
VELOCIDAD | 0,233906 | 0,0862681 | 0,0610201 | 0,406791 |
Intervalos de confianza del 95,0%
Parámetro | Estimado | Límite Inferior | Límite Superior |
EDAD | 1,17645 | 1,08268 | 1,27834 |
VELOCIDAD | 1,26353 | 1,06292 | 1,50199 |
La tabla muestra intervalos de confianza del 95,0% para los coeficientes en el modelo. Los intervalos de confianza muestran con que precisión se pueden estimar los coeficientes dada la cantidad de datos disponibles y del ruido que está presente. También se muestran los intervalos de confianza para la razón de momios. La razón de momios es igual al inverso del logaritmo natural del coeficiente y muestra el cambio proporcional en la variable de respuesta cuando se incrementa la variable independiente en 1 unidad.
Matriz de correlación para los coeficientes estimados
CONSTANTE | EDAD | VELOCIDAD | |||||||||||||||||||||||
CONSTANTE | 1,0000 | -0,7304 | -0,9665 | ||||||||||||||||||||||
EDAD | -0,7304 | 1,0000 | 0,5416 | ||||||||||||||||||||||
VELOCIDAD | -0,9665 | 0,5416 | 1,0000 |
Esta tabla muestra las correlaciones estimadas entre los coeficientes en el modelo ajustado. Estas correlaciones pueden usarse para detectar la presencia de multicolinearidad seria, es decir, correlación entre las variables predictoras. En este caso, hay 1 correlación con valor absoluto mayor que 0,5.
Desempeño de Predicción – Porcentaje Correcto
Punto de Corte | CIERTO | FALSO | Total |
0,0 | 100,00 | 0,00 | 58,62 |
0,05 | 100,00 | 8,33 | 62,07 |
0,1 | 100,00 | 29,17 | 70,69 |
0,15 | 97,06 | 37,50 | 72,41 |
0,2 | 94,12 | 54,17 | 77,59 |
0,25 | 94,12 | 62,50 | 81,03 |
0,3 | 94,12 | 62,50 | 81,03 |
0,35 | 91,18 | 62,50 | 79,31 |
0,4 | 88,24 | 62,50 | 77,59 |
0,45 | 88,24 | 70,83 | 81,03 |
0,5 | 88,24 | 75,00 | 82,76 |
0,55 | 88,24 | 79,17 | 84,48 |
0,6 | 85,29 | 87,50 | 86,21 |
0,65 | 85,29 | 91,67 | 87,93 |
0,7 | 82,35 | 91,67 | 86,21 |
0,75 | 73,53 | 91,67 | 81,03 |
0,8 | 61,76 | 91,67 | 74,14 |
0,85 | 47,06 | 91,67 | 65,52 |
0,9 | 41,18 | 91,67 | 62,07 |
0,95 | 29,41 | 100,00 | 58,62 |
1,0 | 0,00 | 100,00 | 41,38 |
Predicciones para FATAL
Observado | Ajustado | LC Inferior 95,0% | LC Superior 95,0% | |||||||
Fila | Límite de Conf. | Límite de Conf. |
Esta tabla muestra un resumen de la capacidad predictiva del modelo ajustado. Primero, el modelo se usa para predecir la respuesta utilizando la información en cada fila del archivo de datos. Si el valor predicho es mayor que el punto de corte, la respuesta es predicha como CIERTA. Si el valor predicho es menor o igual que el punto de corte, la respuesta es predicha como FALSA. Esta tabla muestra el porcentaje de datos observados predichos correctamente a diferentes valores de punto de corte. Por ejemplo, usando un punto de corte igual a 0,65, 85,2941% de todas las respuestas CIERTAS fueron predichas correctamente, en tanto que 91,6667% de todas las respuestas FALSAS fueron predichas correctamente, para un total de 87,931%. Usar el valor de corte que maximiza el porcentaje correcto total puede ser un buen valor para predecir individuos adicionales.
También se muestran en la tabla los valores observados y los predichos de FATAL para cada fila en el archivo de datos que contiene los datos completos de los factores en el modelo. Intervalos de confianza del 95,0% para la proporción media verdadera correspondiente a cada fila, también aparecen. Para hacer predicciones a otras combinaciones, agregue filas adicionales a su archivo de datos con información sobre los factores pero deje vacía la celda para la variable dependiente. Cuando regrese a esta ventana, se habrán agregado las predicciones para las nuevas filas a la salida.
Residuos Atípicos para FATAL
Y | Residuo | Residuo de | ||||||||
Fila | Y | Predicha | Residuo | Pearson | Desviación | |||||
23 | 0,0 | 0,93224 | -0,93224 | -3,71 | -2,32 | |||||
31 | 1,0 | 0,137371 | 0,862629 | 2,51 | 1,99 | |||||
35 | 0,0 | 0,910219 | -0,910219 | -3,18 | -2,20 | |||||
49 | 1,0 | 0,194473 | 0,805527 | 2,04 | 1,81 |
La tabla de residuos atípicos lista todas las observaciones que tienen residuos Pearson ó residuos de desviación mayores que 2 en valor absoluto. Estos residuos estandarizados miden a cuántas desviaciones estándar se encuentra cada valor observado de FATAL, del modelo ajustado. En este caso, hay 4 residuos estandarizados mayores que 2, 2 mayores que 3. Debería examinar con cuidado los residuos estandarizados mayores que 3 para determinar su corresponden a observaciones aberrantes que debieran ser eliminadas del modelo y tratadas por separado.
Aplicación de la regresión logística
Caso: Diabetes
La regresión logística puede ser utilizada para predecir si un paciente tiene una enfermedad determinada, por ejemplo la diabetes, en base a las características observadas del paciente: edad, sexo, índice de masa corporal , los resultados de diversos análisis de sangre , los hábitos de licor y tabaco, el peso, la edad y otras.
Para ilustrar la aplicación del procedimiento "Hacia Atrás" de la regresión logística se ha tomado una data real y un modelo arbitrario para tratar de establecer una asociación entre la aparición de la diabetes y algunos de los factores considerados.
Regresión Logística – diabetes
Variable dependiente: diabetes
Factores:
Acido Úrico | Cintura | Colesterol | Edad | Glicemia |
Hdl Colesterol | Hematocritos | Hemoglobina | Insulina | Idl Colesterol |
Licor | Obesidad | PAS | Peso | Relac-Cintura |
Porcentaje de desviación explicada = 14,64% Porcentaje ajustado = 4,25%
Selección de factores por etapas
Método: selección hacia atrás
P-para-introducir: 0,05
P-para-eliminar: 0,05
Paso 0:
16 factores en el modelo. 69 g.l. para el error.
Porcentaje de desviación explicada = 21,09% Porcentaje ajustado = 0,00%
Paso 1:
Eliminando factor licor con P-para-eliminar = 0,857638
15 factores en el modelo. 70 g.l. para el error.
Porcentaje de desviación explicada = 21,06% Porcentaje ajustado = 0,00%
Paso 2:
Eliminando factor edad con P-para-eliminar = 0,78514
14 factores en el modelo. 71 g.l. para el error.
Porcentaje de desviación explicada = 21,00% Porcentaje ajustado = 0,00%
Paso 3:
Eliminando factor pas con P-para-eliminar = 0,781539
13 factores en el modelo. 72 g.l. para el error.
Porcentaje de desviación explicada = 20,93% Porcentaje ajustado = 0,00%
Paso 4:
Eliminando factor relacion_cintura_ con P-para-eliminar = 0,679944
12 factores en el modelo. 73 g.l. para el error.
Porcentaje de desviación explicada = 20,79% Porcentaje ajustado = 0,00%
Paso 5:
Eliminando factor glicemia con P-para-eliminar = 0,641657
11 factores en el modelo. 74 g.l. para el error.
Porcentaje de desviación explicada = 20,60% Porcentaje ajustado = 0,00%
Paso 6:
Eliminando factor Hematocritos con P-para-eliminar = 0,601525
10 factores en el modelo. 75 g.l. para el error.
Porcentaje de desviación explicada = 20,36% Porcentaje ajustado = 1,30%
Paso 7:
Eliminando factor Insulina con P-para-eliminar = 0,442175
9 factores en el modelo. 76 g.l. para el error.
Porcentaje de desviación explicada = 19,85% Porcentaje ajustado = 2,52%
Paso 8:
Eliminando factor Peso con P-para-eliminar = 0,354938
8 factores en el modelo. 77 g.l. para el error.
Porcentaje de desviación explicada = 19,11% Porcentaje ajustado = 3,51%
Paso 9:
Eliminando factor Colesterol con P-para-eliminar = 0,331771
7 factores en el modelo. 78 g.l. para el error.
Porcentaje de desviación explicada = 18,29% Porcentaje ajustado = 4,43%
Paso 10:
Eliminando factor Hemoglobina con P-para-eliminar = 0,143632
6 factores en el modelo. 79 g.l. para el error.
Porcentaje de desviación explicada = 16,44% Porcentaje ajustado = 4,31%
Paso 11:
Eliminando factor Hdl colesterol con P-para-eliminar = 0,14992
5 factores en el modelo. 80 g
Paso 12:
Eliminando factor Cintura con P-para-eliminar = 0,143296
4 factores en el modelo. 81 g.l. para el error.
Porcentaje de desviación explicada = 12,79% Porcentaje ajustado = 4,13%
Paso 13:
Eliminando factor Triglicéridos con P-para-eliminar = 0,212916
3 factores en el modelo. 82 g.l. para el error.
Porcentaje de desviación explicada = 11,44% Porcentaje ajustado = 4,51%
Paso 14:
Eliminando factor Acido úrico con P-para-eliminar = 0,0968498
2 factores en el modelo. 83 g.l. para el error.
Porcentaje de desviación explicada = 9,06% Porcentaje ajustado = 3,86%
Modelo final seleccionado.
La salida muestra los resultados de ajustar un modelo de regresión logística para describir la relación entre diabetes y 16 variables independientes. La ecuación del modelo ajustado es
diabetes = exp(eta)/(1+exp(eta))
en donde
eta = -0,411468 – 0,000874581* LDL Colesterol + 1,34451*obesidad
Como el P-valor de la tabla de Análisis de Desviaciones es menor que 0,05, existe una relación estadísticamente significativa entre las variables, con un nivel de confianza del 95,0%.
El P-valor para los residuos es mayor o igual que 0,05, indicando que el modelo no es significativamente peor que el mejor modelo posible para estos datos con un nivel de confianza del 95,0% o mayor.
El porcentaje de desviación de diabetes explicado por el modelo es igual a 9,05634%. Este estadístico es similar al estadístico R-Cuadrado y es apropiado para comparar modelos con diferente número de variables independientes, es 3,8582%.
Para determinar si el modelo puede ser simplificado, se nota que el P- valor más alto para las pruebas de verosimilitud es 0,0279, que pertenece a LDL Colesterol . Como el valor-P es menor que 0,05, ese término es estadísticamente significativo al nivel de confianza del 95,0%.
En consecuencia, no se debe eliminar ninguna variable del modelo y la ecuación del modelo ajustado es:
diabetes = exp(eta)/(1+exp(eta))
en donde
eta = -0,411468 – 0,000874581* LDL Colesterol + 1,34451*Obesidad
Predicción con el modelo
La tabla muestra un resumen de la capacidad predictiva del modelo ajustado, el modelo se usa para predecir la respuesta utilizando la información en cada fila del archivo de datos.
Si el valor predicho es mayor que el punto de corte, la respuesta es predicha como CIERTA, si el valor predicho es menor o igual que el punto de corte, la respuesta es predicha como FALSA.
Se tabula el porcentaje de datos observados predichos correctamente a diferentes valores de punto de corte.
Usando un punto de corte igual a 0,65, el 26,4% de todas las respuestas CIERTAS fueron predichas correctamente.
El 92,3% de todas las respuestas FALSAS fueron predichas correctamente, para un total de 66,27%.
Se puede usar el valor de corte que maximiza el porcentaje correcto total para predecir individuos adicionales.
Página siguiente |