Regresión logística no condicionada y tamaño de muestra: una revisión bibliográfica
Enviado por Antonio Calvete Oliva
Publicación original: Rev. Esp. Salud Publica, mar. 2002, vol.76, no.2, p.85-93. ISSN 1135-5727. Reproducción autorizada por: Revista Española de Salud Pública, |
- Primeras aportaciones
- Una cuestión fundamental: la regresión a la media
- Modelo con salida binaria y exposición ordinal
- Otros Diseños
- El concepto de «evento de interés por variable»
- Muestreo por Conglomerados
- Una visión escéptica del problema
- Conclusiones
- Bibliografía
RESUMEN: La regresión logística no condicionada es un método de predicción de riesgo muy útil en epidemiología. En este artículo revisamos las diferentes soluciones que han dado diversos autores sobre la interfase entre el cálculo del tamaño muestral y la utilización de la regresión logística. A partir del conocimiento de las primeras aportaciones, se revisan los fenómenos de regresión a la media y de la constricción predictiva, el diseño de una exposición ordinal con una salida binaria, el concepto de evento de interés por variable, las variables indicadoras, la fórmula clásica de Freeman, etc. Recogemos también algunas ideas escépticas sobre este tema.
Palabras clave: Regresión logística. Tamaño muestral. Diseño de estudios. Epidemiología.
ABSTRACT: Uconditioned logistic regression and sample size: a reference source review. Unconditioned logistic regression is a highly useful risk prediction method in epidemiology. This article reviews the different solutions provided by different authors concerning the interface between the calculation of the sample size and the use of logistics regression. Based on the knowledge of the information initially provided, a review is made of the customized regression and predictive constriction phenomenon, the design of an ordinal exposition with a binary output, the event of interest per variable concept, the indicator variables, the classic Freeman equation, etc. Some skeptical ideas regarding this subject are also included.
Key words: Logistic regression. Sample size. Research Design. Epidemiology.
El modelado es la emoción que la mano experimenta en la caricia. Auguste Rodin
INTRODUCCIÓN
Uno de los elementos que más ha contribuido al avance de la epidemiología en los últimos años ha sido el desarrollo de determinados métodos de análisis como la regresión logística1. Mediante ella se pueden hacer cuantificaciones de riesgo en un determinado carácter biológico o no biológico (por ejemplo, el hábito tabáquico) permitiendo al investigador la creación de modelos uni o multivariantes que sean predictivos de fenómenos complejos. También ayuda a controlar el efecto de posibles variables confusoras y la interacción2.
El modelo logístico aplicado a los estudios de seguimiento fue introducido por Cornfield en el año 19623 y posteriormente aplicado al análisis de los datos del estudio de Framingham4. La adaptación al contexto de estudios causales planteaba el problema de la estimación de los coeficientes, por lo que el uso de ordenadores era imprescindible.
El algoritmo de Walker-Duncan5 para la obtención de los estimadores de máxima verosimilitud y los trabajos de Day y Kerridge6 y de Cox7 vinieron a solucionar en parte este problema. Los estudios de bondad de ajuste descritos con posterioridad han aportado las técnicas de diagnóstico adecuadas8-13. La aplicación de los modelos logísticos en los estudios caso-control fue sugerida y justificada por Mantel14 y por Siegel y Greenhouse15. Poco después se planteó la estimación de los coeficientes utilizando un argumento condicionado16, lo cual permitía la aplicación en diseños pareados (regresión logística «condicionada»).
El objetivo de este trabajo es la revisión de las diferentes soluciones que distintos autores han dado al problema del cálculo del tamaño muestral para el caso en el que se aplique la regresión logística no condicionada en la modelación estadística de un estudio epidemiológico.
Primeras aportaciones
A pesar de que, como hemos visto, el método de análisis basado en el modelo logístico comenzó a existir científicamente a partir de la década de los sesenta3-6, es interesante hacer notar que existe poca bibliografía específicamente dedicada a este modelo y al cálculo del tamaño de muestra hasta el año 198117. Basada en una matriz de información para los parámetros estimados de una regresión logística múltiple y en una aproximación a ella mediante otra matriz para las covariables, Whittemore publicó una solución de tamaños de muestra en circunstancias uni y multivariadas para eventos raros17. En el año 1989 aparece otra publicación con objetivos similares18. Basado matemáticamente en el de Whittemore, Hsieh escribe de forma más comprensible, con unas tablas muy claras que contemplan las diferentes prevalencias asumidas en la enfermedad a estudiar y las odds ratio que se pretenden detectar (tabla 1), si la variable independiente fuera de tipo dicotómico y si se tratara de estudios caso-control apareados nos remite a otras fuentes19-20. Aunque no refiere nada acerca de las técnicas analíticas para el cumplimiento de normalidad uni o multivariante21-22 si que recomienda que si se constata su falta en una o varias de las covariables se realice una transformación23 antes de aceptar el tamaño de muestra18.
Página siguiente |