Desempeño de Predicción
Porcentaje Correcto
Punto de Corte | CIERTO | FALSO | Total |
0,0 | 100,00 | 0,00 | 39,53 |
0,05 | 100,00 | 0,00 | 39,53 |
0,1 | 100,00 | 1,92 | 40,70 |
0,15 | 100,00 | 13,46 | 47,67 |
0,2 | 100,00 | 23,08 | 53,49 |
0,25 | 94,12 | 34,62 | 58,14 |
0,3 | 88,24 | 36,54 | 56,98 |
0,35 | 85,29 | 38,46 | 56,98 |
0,4 | 44,12 | 75,00 | 62,79 |
0,45 | 35,29 | 80,77 | 62,79 |
0,5 | 32,35 | 84,62 | 63,95 |
0,55 | 29,41 | 86,54 | 63,95 |
0,6 | 26,47 | 90,38 | 65,12 |
0,65 | 26,47 | 92,31 | 66,28 |
0,7 | 8,82 | 98,08 | 62,79 |
0,75 | 0,00 | 100,00 | 60,47 |
0,8 | 0,00 | 100,00 | 60,47 |
0,85 | 0,00 | 100,00 | 60,47 |
0,9 | 0,00 | 100,00 | 60,47 |
0,95 | 0,00 | 100,00 | 60,47 |
1,0 | 0,00 | 100,00 | 60,47 |
Predicciones para diabetes
La tabla presenta los valores observados y los predichos de diabetes para varios individuos (1 2 3 4 50 97 98 99 ) en el archivo de datos que contiene los datos completos de los factores en el modelo y los Intervalos de confianza del 95,0% para la proporción media verdadera correspondiente a estos individuos,
Predicciones para diabetes
Observado | Ajustado | LC Inferior 95,0% | LC Superior 95,0% | |||||||
Fila | Límite de Conf. | Límite de Conf. | ||||||||
1 | 0 | 0,487944 | 0,298405 | 0,681014 | ||||||
2 | 1 | 0,38336 | 0,245645 | 0,542733 | ||||||
3 | 1 | 0,2964 | 0,189562 | 0,431399 | ||||||
4 | 1 | 0,383566 | 0,245741 | 0,543039 | ||||||
97 | 1 | 0,206604 | 0,105442 | 0,365198 | ||||||
98 | 1 | 0,692797 | 0,475663 | 0,848628 | ||||||
99 | 1 | 0,370625 | 0,239456 | 0,524129 |
Esta tabla muestra un resumen de la capacidad predictiva del modelo ajustado. Primero, el modelo se usa para predecir la respuesta utilizando la información en cada fila del archivo de datos.
Si el valor predicho es mayor que el punto de corte, la respuesta es predicha como CIERTA
Si el valor predicho es menor o igual que el punto de corte, la respuesta es predicha como FALSA. Esta tabla muestra el porcentaje de datos observados predichos correctamente a diferentes valores de punto de corte.
Por ejemplo, usando un punto de corte igual a 0,65, 26,4706% de todas las respuestas CIERTAS fueron predichas correctamente, en tanto que 92,3077% de todas las respuestas FALSAS fueron predichas correctamente, para un total de 66,2791%.
Usar el valor de corte que maximiza el porcentaje correcto total puede ser un buen valor para predecir individuos adicionales.
También se muestran en la tabla los valores observados y los predichos de diabetes para cada fila en el archivo de datos que contiene los datos completos de los factores en el modelo y
Intervalos de confianza del 95,0% para la proporción media verdadera correspondiente a cada fila.
Residuos Atípicos para diabetes
Estos residuos estandarizados miden a cuántas desviaciones estándar se encuentra cada valor observado de diabetes, del modelo ajustado
La tabla de residuos atípicos lista todas las observaciones que tienen residuos Pearson ó residuos de desviación mayores que 2 en valor absoluto.
En este caso, hay un residuo estandarizado mayor que 3. Se debe examinar con cuidado los residuos estandarizados mayores que 3 para determinar su corresponden a observaciones aberrantes que debieran ser eliminadas del modelo y tratadas por separado.
Y | Residuo | Residuo de | ||||||||
Fila | Y | Predicha | Residuo | Pearson | Desviación | |||||
39 | 1,0 | 0,0642047 | 0,935795 | 3,82 | 2,34 |
El Análisis probit es un método estadístico que se usa para analizar la relación que existe entre un estímulo (dosis) y una respuesta cuantitativa, siempre se prefieren las respuestas cuantitativas, pero en muchas situaciones, sólo es posible determinar si se ha producido una determinada respuesta, como la muerte, por ejemplo.
El modelo probit relaciona la probabilidad de ocurrencia P del resultado contado por Y con las variables predictores X, que pueden ser cuantitativas o categóricas, el modelo toma la forma:
donde F(Z) es la función de distribución acumulada normal estándar.
La regresión Probit
El procedimiento regresión Probit está diseñado para ajustar un modelo de regresión en el cual la variable dependiente Y caracteriza un evento con sólo dos posibles resultados.
La variable dependiente Y puede ser un conjunto de ceros y unos, donde 1 representa la ocurrencia de uno de los dos posibles resultados o puede ser la proporción de veces que ocurre cada uno de los dos resultados.
En este procedimiento, se asume que la probabilidad de un evento está relacionada con los predictores a través de la función probit.
Puede usarse el procedimiento de regresión logística para ajustar el mismo tipo de datos empleando una forma funcional diferente. El modelo se ajusta usando la máxima verosimilitud o los mínimos cuadrados ponderados.
Para probar la significancia de los coeficientes del modelo se realizan pruebas de cociente de verosimilitud.
Se puede graficar los valores que toma el modelo ajustado y las predicciones generadas a partir del mismo, también se pueden graficar los residuos atípicos.
Aplicaciones de la regresión Probit
El rango de posibles aplicaciones de la regresión Probit es bastante amplio: sociología, análisis financiero, econometría, bioestadística, análisis de riesgos, toxicología, asistencia sanitaria, medicina veterinaria e investigación clínica son algunos de los campos donde el la regresión Probit ya ha sido ampliamente usada, una de las aplicaciones de mayor interés es la determinación de las dosis y las concentraciones letales.
Los ingenieros de seguridad aplican esta metodología para la determinación de los efectos térmicos, tóxicos y de explosiones sobre las personas y los bienes materiales en los establecimientos industriales.
La DL50
La dosis letal 50 (DL50) es la dosis de tóxico necesaria para causar la muerte del 50% de la población de estudio en un tiempo determinado
La regresión Probit permite determinar la relación que existe entre una variable independiente (la dosis) y una variable dependiente (la respuesta) para una exposición determinada.
Para determinar la DL50 con la regresión Probit, Si se representa la mortalidad acumulada en unidades probit ( % en el eje Y) y el logaritmo de la dosis en el eje X obtenemos una respuesta de tipo sigmoides, en el grafico resultante podemos hallar para el valor 50% de la respuesta, el valor de la dosis (DL50) que causa esa respuesta: La dosis letal 50 (DL50)
La DL50 (o la DE50 cuando el parámetro que se estudia es diferente a la mortalidad) es útil para comparar sensibilidades entre diferentes tipos de individuos para un mismo tóxico, para comparar la toxicidad de varios compuestos para un mismo tipo de individuo y para determinar criterios de calidad.
A un grupo de individuos se les suministra diferentes dosis de un fármaco y se registra el numero de individuos que tiene una reacción determinada (la muerte, por ejemplo), este experimento fue ideado por Bliss (1935) en el cual se expusieron escarabajos a diferentes concentraciones de bisulfuro de carbono y se registraron la dosis, el número de escarabajos expuestos, y el número de escarabajos muertos.
Los datos del ejemplo son datos hipotéticos del resultado de un experimento de Bliss y van a ser usados para ilustrar un Análisis Probit.
Los resultados de un Análisis Probit
Los resultados de un Análisis Probit se presentan en tablas en la que aparecen:
La tabla de regresión, que incluye los coeficientes estimados y sus errores estándares.
Los valores Z y de p. Con la prueba Z se comprueba si el coeficiente es significativamente diferente de 0; comprueba si el factor es un predictor significativo.
La tasa de respuesta natural – La probabilidad de que una unidad falle sin ser expuesta a ninguno de los niveles del estimulo.
La prueba de pendientes iguales, que comprueba si las pendientes asociadas con los niveles del factor son significativamente diferentes.
El log-verosimilitud
Las pruebas de bondad del ajuste de Pearson y de desviación., que evalúan cuán bien se ajusta el modelo a los datos. La hipótesis nula es que el modelo se ajusta adecuadamente a los datos, mientras más alto sea el valor p, mejor se adapta el modelo a los datos.
El estimado de los parámetros para la distribución y sus errores estándares y los intervalos de confianza de 95%. Los estimados de los parámetros son transformaciones de los coeficientes estimados en la tabla de regresión.
La tabla de percentiles, que incluye los percentiles estimados y los errores estándares
El modelo que ajusta los datos
Análisis de Probit: Muertos.
Expuestos vs. Dosis (ml) Distribución Normal
Información de respuesta
Variable Valor Conteo
Muertos Evento 291
Sin evento 190
Expuestos Total 481
Método de cálculo: Máxima verosimilitud
Tabla de regresión
Error
Variable Coef estándar Z P
Constante -8,46914 0,658720 -12,86 0,001
Dosis (ml) 0,144449 0,0110673 13,05 0,0001
Log-verosimilitud = -183,411
Pruebas de bondad del ajuste
Método Chi-cuadrada GL P
Pearson 5,21025 6 0,517
Desviación 5,58257 6 0,472
Las pruebas de bondad de ajuste (valores p = (0,517, 0,472) y la gráfica de probabilidades sugieren que la distribución de Normal se ajusta a los datos de manera adecuada
Tabla de percentiles
Percentil Dosis Error IC Inferior IC Superior
1 | 42,5257 | 1,37297 | 39,3937 | 44,8911 |
5 | 47,2436 | 1,04666 | 44,8761 | 49,0621 |
10 | 49,7586 | 0,883957 | 47,7765 | 51,3079 |
20 | 52,8042 | 0,707404 | 51,2481 | 54,068 |
30 | 55,0003 | 0,604484 | 53,7026 | 56,107 |
40 | 56,8767 | 0,543039 | 55,7467 | 57,9024 |
50 | 58,6306 | 0,516107 | 57,5957 | 59,6421 |
60 | 60,3845 | 0,523408 | 59,3752 | 61,4513 |
70 | 62,261 | 0,567508 | 61,2056 | 63,4604 |
80 | 64,4571 | 0,656407 | 63,2727 | 65,8868 |
90 | 67,5026 | 0,821873 | 66,0549 | 69,3363 |
99 | 74,7356 | 1,30108 | 72,4911 | 77,6997 |
El valor de P para Dosis es muy pequeño, indicando que es un predictor estadísticamente significativo para la proporción de individuos muertos.
Gráfica de Supervivencia para Muertos
Las gráficas de supervivencia muestran las probabilidades de supervivencia versus Dosis Cada punto de la gráfica representa la proporción de individuos que sobreviven a un nivel de la Dosis.
La curva de supervivencia está rodeada por dos líneas externas: los intervalos de la confianza de 95% para la curva, que provee valores razonables para la función real de la supervivencia.
De Acumuladas de Muertes para Muertos
La Gráfica acumulada de muertes muestra las probabilidades acumuladas de muerte versus la dosis, cada punto de la gráfica representa el porcentaje acumulado de individuos que mueren para cada dosis
La curva acumulada de muertes es rodeada por dos líneas externa: los intervalos de confianza de aproximadamente 95.0% para la curva, lo cual provee valores razonables para verdadera función acumulada de muertes.
Gráfica de Probabilidad para Muertos
La Gráfica de Probabilidad para Muertos presenta la Dosis (ml) versus el porcentaje de Muertos con los intervalos de confianza, ayuda a evaluar si la distribución seleccionada se ajusta a los datos.
Las pruebas de bondad de ajuste (valores p = (0,517, 0,472) y la gráfica de probabilidades sugieren que la distribución de Normal se ajusta a los datos de manera adecuada
La DL50 o LD50
La dosis letal 50 (DL50 O LD50) es la dosis de tóxico necesaria para causar la muerte del 50% de la población de estudio en un tiempo determinado
La regresión Probit permite determinar la relación que existe entre una variable independiente (la dosis) y una variable dependiente (la respuesta) para una exposición determinada.
Para determinar la DL50 con la regresión Probit, se representa la mortalidad acumulada en unidades probit ( % en el eje Y) y el logaritmo de la dosis en el eje X obtenemos una respuesta de tipo sigmoides (curva S).
En el grafico resultante podemos hallar para el valor 50% de la respuesta, el valor de la dosis (DL50) que causa esa respuesta: La dosis letal 50 (DL50)
Cuando el parámetro que se estudia es diferente a la mortalidad, la DL o la LD se usa para comparar la sensibilidad entre diferentes tipos de individuos para un mismo tóxico, para comparar la toxicidad de varios compuestos para un mismo tipo de individuo y para determinar criterios de calidad.
En el ejemplo, el diez por ciento de los individuos sobrevive a una dosis de 67,50, el cincuenta por ciento de los individuos sobrevive a una dosis de 58,63 y el noventa por ciento de los individuos sobrevive a una dosis de 49,75
Las pruebas de bondad de ajuste (valores p = (0,517, 0,472) y la gráfica de probabilidades sugieren que la distribución de Normal se ajusta a los datos de manera adecuada
Enviado por: Ing.+Lic. Yunior Andrés Castillo S.
"NO A LA CULTURA DEL SECRETO, SI A LA LIBERTAD DE INFORMACION"®
Santiago de los Caballeros, República Dominicana, 2016.
"DIOS, JUAN PABLO DUARTE, JUAN BOSCH Y ANDRÉS CASTILLO DE LEÓN – POR SIEMPRE"®
Autor:
Yunior Andrés Castillo Silverio.
Página anterior | Volver al principio del trabajo | Página siguiente |