Introducción a los modelos multivariables (página 2)
Enviado por Ing.Licdo. Yunior Andrés Castillo Silverio
El ejemplo de la figura 12.6 ayudará a entender los conceptos de odds y odds ratio (Martínez González, 1999b). Supongamos que en una muestra de 100 pacientes que han recibido un fármaco se ha alcanzado éxito en 75 de ellos. Si se divide la probabilidad de curación (p= 75/100 = 0,75) por la probabilidad de no curación (25/100=0,25), se obtendrá la odds de curación para ese tratamiento, que valdría 3, que es el resultado de dividir 75% entre 25% (odds = 0,75/0,25 = 3), o bien simplemente dividir 75 entre 25 ¿Cómo se interpreta una odds de 3 en el ejemplo? Se entendería que por cada paciente en que no se alcanzó el éxito terapéutico hay 3 en que sí se logró, es decir, con ese tratamiento la probabilidad de éxito es 3 veces mayor que la de fracaso. Tienen una ventaja de 3 para curarse. Esta ventaja es la odds, como se muestra en la figura 12.6.
Figura 12.6. Concepto de ventaja (odds): 75 curaciones en
100 pacientes tratados con un fármaco.
Aunque este concepto de "odds" pueda parecer al principio extraño, se maneja con gran frecuencia en el mundo anglosajón, por ejemplo en el lenguaje de las apuestas. Supongamos que un caballo ha ganado en la última temporada un 80% de las carreras y ha perdido (no ha ganado) un 20%. La odds de ese caballo sería de 4. Cuando se oye en una película que las apuestas van 4 a 1, se interpretaría que este caballo tiene un 80% de probabilidades de ganar
Para transformar una odds en una proporción el proceso es a la inversa .
Si la odds de curarse con un tratamiento (figura 12.6) es de 3, la proporción sería:
Tanto las proporciones como las odds expresan lo mismo pero usando dos escalas numéricas distintas: las proporciones oscilan entre 0 y 1 y las odds entre 0 e infinito. A veces interesa pasar de una escala a otra, utilizándose para ello las expresiones que hemos visto: odds=p/(1-p) y p = odds/(1+odds).
Ya sabemos lo que es una "odds", pero ahora hay estudiar qué es una odds ratio (Martín-Moreno, 1990; Bautista, 1995; Lachenbruch, 1997; Zhang y Yu, 1998; Altman, 1998; McNutt, 1999; Martínez-González, 1999b; Bland y Altman, 2000). La traducción más lógica es razón de odds o razón de ventajas. Pero el término odds ratio, que es cada vez más utilizado en la literatura médica, ha recibido diversas traducciones al castellano: razón de oportunidades, razón de posibilidades, oportunidad relativa, razón de probabilidades o razón de productos cruzados, e incluso algo tan extraño como "razón de momios". Una buena opción que sirve para evitar confusiones y se ha hecho mayoritaria (Martínez-González, 1999b) es incorporar directamente el término inglés y decir siempre odds ratio (abreviadamente, OR), lo mismo que con otros términos originalmente ingleses, pero que ya son de uso habitual en castellano (el "stop" de las carreteras o el "penalty" en el fútbol).
¿Qué es una odds ratio? Un cociente entre dos odds. La división de una odds por otra odds es una razón de odds u "odds ratio".
En el ejemplo anterior (figura 12.6), de 100 pacientes tratados médicamente con un fármaco, se curaron 75 (odds = 75/25 = 3). Supongamos ahora que otros 90 pacientes se trataron quirúrgicamente y se alcanzó el éxito terapéutico en 81 de ellos. La odds esta vez sería de 9 (odds = 81/9 = 9) como muestra la figura 12.7.
Figura 12.7. Odds de curación si se producen 81 éxitos
entre 90 pacientes tratados quirúrgicamente.
Se obtiene una OR = 3 para el éxito terapéutico del tratamiento quirúrgico respecto al tratamiento con el fármaco como muestra la figura 12.8. Una OR, por tanto, es el cociente o razón entre dos odds y carece de unidades de medida.
Figura 12.8. Una odds ratio se obtiene al dividir una odds por otra odds.
Interpretación:
El tratamiento quirúrgico ofrece una ventaja terapéutica 3 veces superior al tratamiento con el fármaco.
Para poder interpretar una OR es necesario siempre tener en cuenta cuál es el factor o variable predictora que se estudia y cuál es el resultado o desenlace. Aquí el factor es el tratamiento y la respuesta o desenlace es el éxito terapéutico. La OR no tiene interpretación absoluta, siempre es relativa. Una OR de 3 se interpreta como una ventaja 3 veces superior de una de las categorías (la categoría quirúrgica en el factor tratamiento) relativamente a la otra categoría (fármaco) para alcanzar el desenlace o resultado (éxito terapéutico).
El valor nulo para la OR es el 1. Una OR = 1 implica que las dos categorías comparadas son iguales. El valor mínimo posible es 0 y el máximo teóricamente posible es infinito.
Una OR inferior a la unidad se interpreta como que el desenlace es menos frecuente en la categoría o grupo que se ha elegido como de interés con respecto al otro grupo o categoría de referencia. La odds del grupo de interés se debe colocar siempre en el numerador y la de referencia en el denominador.
El ejemplo de la figura 12.8 también podría representarse en forma de tabla, del modo que muestra la tabla 12.7.
Tabla 12.7. El cálculo de una odds ratio se obtiene en una tabla
por la razón de productos cruzados.
Generalizando, podría escribirse una tabla como la que se muestra a continuación (tabla 12.8):
Tabla 12.8. Disposición de una tabla para el cálculo de una odds ratio.
RESPUESTA | ||
FACTOR | SÍ | NO |
Categoría A | a | b |
Categoría B | c | d |
En esta disposición de la tabla, la odds ratio se calcula por el producto cruzado
De todos modos, al manejar una OR se presenta una aparente incongruencia con nuestro modo habitual de pensar. ¿Hasta qué punto es verdad que el tratamiento quirúrgico es 3 veces mejor que el farmacológico? Nuestro modo habitual de razonar es que si el tratamiento quirúrgico ha curado al 90% y el farmacológico sólo al 75%, diremos que existe una razón de probabilidades de curarse de 1,2:
En epidemiología este cociente, que surge de dividir proporciones (pA/pB) se conoce como "riesgo relativo" o "razón de riesgos" (RR).
Pero la odds ratio (OR) sólo se aproxima al riesgo relativo (RR) cuando el suceso es raro y ocurre en menos del 10% de los sujetos (p< 0,1), por lo que su interpretación debe matizarse en función de lo frecuente que sea el suceso que se usa como respuesta o variable dependiente (Zhang y Yu, 1998; Altman, 1998; McNutt, 1999; Martínez-González, 1999b; Bland y Altman, 2000).
Vamos a ver otro ejemplo, que se resume en la tabla 12.9. En este otro ejemplo el acontecimiento de desenlace o respuesta (variable dependiente) es el cáncer de páncreas. Se compara su ocurrencia en un grupo de 10.000 fumadores y en otro grupo de 20.000 no fumadores. Afortunadamente, el cáncer de páncreas es un fenómeno raro, incluso entre los fumadores. Hubo 10 individuos entre los 10.000 fumadores que desarrollaron cáncer de páncreas, y sólo 10 de los 20.000 no fumadores lo desarrollaron.
Tabla 12.9. La odds ratio se aproxima bien al riesgo relativo
sólo cuando el fenómeno o evento (variable dependiente) es raro.
Cáncer de páncreas | No cáncer de páncreas | TOTAL | |
Fumadores | 10 | 9.990 | 10.000 |
No fumadores | 10 | 19.990 | 20.000 |
TOTAL | 20 | 29.980 | 30.000 |
En esta tabla la odds ratio (OR) valdría:
Y el riesgo relativo (RR) sería:
Puede comprobarse que apenas existen diferencias y ambos estimadores son intercambiables. Esto se debe a que el fenómeno estudiado es raro.
Se ha hecho esta larga introducción sobre la odds ratio porque es el estimador que más fácilmente puede obtenerse e interpretarse en un análisis de regresión logística (Martínez González, 1999b).
12.3.2. La odds ratio en la regresión logística
Volviendo a la regresión logística, podría escribirse también su ecuación:
A toda la expresión de la variable dependiente ln (p/1-p) se le llama logit (p). Por consiguiente:
La transformación logarítmica es necesaria para adaptarse a un fenómeno como la probabilidad cuyos límites teóricos son tan estrechos como 0 y 1. En cambio, los límites teóricos de ln (odds) van desde -( hasta ((.
Como sucede con la regresión lineal, también cuando se ajusta un modelo de regresión logística, el ordenador también devuelve coeficientes bi para cada una de las variables independientes xi que pueden considerarse predictores del suceso considerado como respuesta o variable dependiente (y = logit(p)).
En la tabla 12.10 se recoge el número de hombres y mujeres que afirmaron que a veces conducían después de haber bebido alcohol.
Tabla 12.10. Tabla de contingencia (2×2) del hábito de
beber antes de conducir en función del sexo
Pero lo que hay dentro del paréntesis es precisamente la odds ratio. Por lo tanto
ln (OR) = b
La interpretación más sencilla de la regresión logística es que cada coeficiente de regresión bi expresa el logaritmo neperiano de la odds ratio (OR) de que ocurra un fenómeno por unidad de cambio de la variable independiente. En el ejemplo una "unidad" de cambio es compara hombres frente a mujeres.
Interpretación:
El coeficiente bi para el sexo vale 0,385 y su error estándar es 0,035. El test de Wald es el fruto de dividir el coeficiente por su error estándar y elevar después al cuadrado lo resultante. Este estadístico sigue una ji cuadrado:
con k-1 grados de libertad siendo k el número de categorías de la variable sexo tiene dos categorías esta ji cuadrado tendrá un grado de libertad (p < 0,001).
Elevando el número e al coeficiente bi se obtiene la odds ratio (OR):
OR = ebi = Exp(B) = e0,385 = 1,47
Como puede comprobarse, OR = Exp (0,385) = 1,47 coincide con la odds ratio que se había calculado en la tabla 12.10, se interpreta como que la odds de conducir después de beber es 1,47 veces superior en los hombres que en las mujeres.
El estimador habitual de asociación entre variables que se obtiene directamente de la regresión logística es la odds ratio (OR). Esto hace a la regresión logística un procedimiento muy útil para construir modelos matemáticos de factores predictivos, ya que sus resultados son interpretables como odds ratios. La regresión logística es muy utilizada, cada vez más, tanto en epidemiología de factores de riesgo como en epidemiología clínica.
12.3.3. Ejemplo de interpretación de una regresión logística multivariante
Siguiendo con el ejemplo anterior, se ha ajustado un modelo de regresión logística para predecir la probabilidad (p) de tener el hábito de conducir después de haber bebido alcohol. Se consideran como variables independientes el sexo (0=mujer; 1= varón), la edad (en 7 grupos, comenzando por los menores de 25 años, hasta los que tienen 50 o más años), los kilómetros conducidos al año (en 5 categorías, la inferior para los de <1.000 y la superior para >50.000 km/año) y el estado civil (4 categorías: soltero, casado, viudo y otros). En el listado (tabla 12.11), para cada variable aparece una categoría menos que las originales. La categoría que no aparece es la de referencia, frente a la cual se comparan el resto.
Tabla 12.11. Análisis de regresión logística de factores asociados con
el hábito de beber antes de conducir (n=16.393).[4]
B | E.T. | Wald | gl | Sig. | Exp(B) | ||||
sexo | 0,264 | 0,038 | 47,628 | 1,000 | 0,000 | 1,303 | |||
edad_gr | 202,797 | 6,000 | 0,000 | ||||||
25-29,9 | 0,742 | 0,077 | 93,175 | 1,000 | 0,000 | 2,099 | |||
30-34,9 | 0,925 | 0,081 | 128,804 | 1,000 | 0,000 | 2,521 | |||
35-39,9 | 1,025 | 0,086 | 142,064 | 1,000 | 0,000 | 2,786 | |||
40-44,9 | 0,954 | 0,090 | 112,814 | 1,000 | 0,000 | 2,596 | |||
45-49,9 | 0,761 | 0,093 | 67,025 | 1,000 | 0,000 | 2,140 | |||
>=50 | 0,588 | 0,088 | 44,966 | 1,000 | 0,000 | 1,800 | |||
km_year | 120,647 | 4,000 | 0,000 | ||||||
1000-10.000 | 0,502 | 0,074 | 45,825 | 1,000 | 0,000 | 1,652 | |||
10.001-20.000 | 0,736 | 0,075 | 97,244 | 1,000 | 0,000 | 2,088 | |||
20.001-50.000 | 0,753 | 0,077 | 95,717 | 1,000 | 0,000 | 2,122 | |||
>50.000 | 0,700 | 0,116 | 36,431 | 1,000 | 0,000 | 2,014 | |||
estcivil | 2,092 | 3,000 | 0,553 | ||||||
casado | -0,012 | 0,046 | 0,065 | 1,000 | 0,798 | 0,988 | |||
viudo | -0,180 | 0,195 | 0,856 | 1,000 | 0,355 | 0,835 | |||
separado/otr | 0,096 | 0,103 | 0,873 | 1,000 | 0,350 | 1,101 | |||
Constante | -2,346 | 0,090 | 673,539 | 1,000 | 0,000 | 0,096 |
Interpretación:
La odds de conducir tras beber es 1,303 veces mayor en hombres que en mujeres, una vez ajustadas las diferencias por los otros 3 factores que aparecen en la tabla, es decir, a igualdad de edad, km conducidos y estado civil. La odds ratio sería 1,30 para los varones y se podría escribir que es 1,00 (referencia) para las mujeres.
La máxima frecuencia de conducir tras beber se da en quienes tienen de 35 a 40 años (OR = 2,786) y la mínima en quienes tienen menos de 25 años (OR = 1,00, categoría de referencia). Todo esto a igualdad de sexo, km conducidos y estado civil.
Los que conducen de 20.000 a 50.000 km/año son quienes con más frecuencia se exponen a beber antes de conducir (OR = 2,122) comparados con los que conducen <1000 km/año, que son la referencia (OR = 1,00).
No existen diferencias estadísticamente significativas en el hábito de beber antes de conducir según estado civil, ya que el test de Wald no resulta significativo para ninguna categoría (p=0,798; p=0,355 y p=0,350).
Puede comprobarse que para las variables con más de dos categorías (edad_gr, km_year y estcivil) el análisis de regresión logística proporciona primero un valor p global (p=0,553 para estcivil y p<0,001 para las otras dos) que indica si la predicción del suceso de interés (beber y conducir en el ejemplo) mejora significativamente al añadir esta variable en su conjunto. A la luz del resultado para ecivil, puede afirmarse que no es una variable independientemente asociada con el hecho de conducir tras haber bebido y pudiera suprimirse del modelo.
Una vez eliminada del modelo la variable estado civil, éste se vuelve ajustar y quedaría tal como se recoge en la tabla 12.12, a la que se han añadido los intervalos de confianza y las categorías de referencia para asimilarla a cómo se suelen presentar unos resultados de regresión logística en una publicación científica.
Tabla 12.12. Factores independientemente asociados con
el hábito de beber antes de conducir (n=16.393).
Variable | b | EE | OR (IC 95%) | p | |||||
Sexo: Mujer | 1 | (ref.) | |||||||
Hombre | 0,263 | 0,038 | 1,30 | (1,21- | 1,40) | <0,001 | |||
Edad | |||||||||
<25 | 1 | (ref.) | |||||||
25-29,9 | 0,740 | 0,077 | 2,10 | (1,80- | 2,44) | <0,001 | |||
30-34,9 | 0,921 | 0,078 | 2,51 | (2,15- | 2,93) | <0,001 | |||
35-39,9 | 1,020 | 0,080 | 2,77 | (2,37- | 3,24) | <0,001 | |||
40-44,9 | 0,949 | 0,083 | 2,58 | (2,20- | 3,04) | <0,001 | |||
45-49,9 | 0,756 | 0,085 | 2,13 | (1,80- | 2,51) | <0,001 | |||
>=50 | 0,577 | 0,078 | 1,78 | (1,53- | 2,08) | <0,001 | |||
Km / año | |||||||||
<1000 | 1 | (ref.) | |||||||
1000-10.000 | 0,502 | 0,074 | 1,65 | (1,43- | 1,91) | <0,001 | |||
10.001-20.000 | 0,738 | 0,074 | 2,09 | (1,81- | 2,42) | <0,001 | |||
20.001-50.000 | 0,755 | 0,077 | 2,13 | (1,83- | 2,47) | <0,001 | |||
>50.000 | 0,704 | 0,116 | 2,02 | (1,61- | 2,54) | <0,001 | |||
Constante | -2,347 | 0,090 |
Interpretación:
Las odds ratios prácticamente no se han modificado al dejar de ajustar por estado civil, lo que indica que esta variable no inducía confusión. Ahora se han añadido intervalos de confianza al 95%. El intervalo de confianza al 95% para la odds ratio se calcula por aproximación a la normalidad, sumándole y restándole 1,96 veces (z) el error estándar al coeficiente b y usando lo resultante como exponente para el número e. Se recoge debajo para la OR de hombres respecto a mujeres:
12.3.4. Obtención de probabilidades (riesgos absolutos) en una regresión logística
Con el anterior modelo podríamos preguntarnos ¿cuál es la probabilidad que el modelo predice de que un hombre de 35-39,9 años, que conduce 10,000-20.000 km/año tenga el hábito de conducir tras beber?
El primer paso es calcular su odds, partimos del logaritmo neperiano de la odds:
ln (odds) = a + b1x1 + …+ bpxp
En el ejemplo, para ese sujeto sólo entran 3 variables en el modelo (sexo, la dummy correspondiente a edad = 35-39,9 años y la dummy correspondiente a conducir 10.000-20.000 km/año. Por lo tanto:
ln (odds) = -2,347 + 0,263 + 1,020 + 0,738 = -0,326
Se toman antilogaritmos y se obtiene
odds = exp (-0,326) = 0,722
Nos interesa la probabilidad (p) que es igual a odds/(1+odds), como ya vimos:
p = odds/(1+odds) = 0,722 /1,722 = 0,419
La probabilidad predicha es del 41,9%.
En unaregresión logística, al igual que en la regresión lineal múltiple, es posible introducir variables independientes (xi) categóricas o dicotómicas en los modelos. También es posible incluir como variables independientes variables cualitativas con varias categorías como estado civil (soltero, casado, viudo, etc). Pero ello, como hemos visto requeriría la creación de tantas variables artificiales (dummies) como categorías, menos una, que se reserva como estrato de referencia. Esto es lo mismo que vimos al hablar de regresión múltiple.
La regresión logística se emplea habitualmente en uno de los diseños epidemiológicos mas utilizados: los estudios de casos y controles. Sin embargo es conveniente saber que hay un tipo de estudios de casos y controles denominado casos y controles apareados en los que no se debe aplicar la regresión logística convencional sino que se ha de utilizar un tipo especial de regresión logística: la regresión logística condicional.
12. 4. Regresión de Cox.
La regresión de Cox, también llamada modelo de riesgos proporcionales (proportional hazards model) es una técnica muy difundida (Cox, 1972; Altman y Goodman, 1994). Está indicado su uso cuando la variable dependiente esté relacionada con la supervivencia de un grupo de sujetos o, en general, con el tiempo que trascurre hasta que se produce en ellos un suceso o evento. El evento de interés no tiene porqué ser la muerte, puede ser otro tipo de suceso, por ejemplo, el fallo de una prótesis, la incidencia de una enfermedad o la ocurrencia de una complicación en quien ya tiene una patología de base. Se usa para valorar simultáneamente el efecto independiente de una serie de variables explicativas o factores pronósticos sobre esta supervivencia (es decir, sobre la tasa de mortalidad) o sobre la tasa de ocurrencia de otro fenónemo que vaya ocurriendo tras un periodo de tiempo variable en cada sujeto (figura 12.9).
La regresión de Cox es la extensión multivariable del análisis de supervivencia para evaluar de manera general variables dependientes del tipo "tiempo hasta un suceso o evento", y usa modelos de regresión, próximos al modelo de regresión logística. Es una técnica que permite identificar y evaluar la relación entre un conjunto de variables explicativas y la tasa de ocurrencia del suceso de interés. El modelo de regresión de Cox también permite predecir las probabilidades de supervivencia (o, en general de permanencia libre del evento) para un determinado sujeto a partir del patrón de valores que presenten sus variables pronósticas.
Figura 12.9. Aplicación de la regresión de Cox.
Debe tenerse en cuenta que la regresión de Cox asume algunos de los mismos supuestos que el método de Kaplan-Meier: el suceso debe ser irreversible, debe poder ocurrir una sola vez y la censura no debe ser informativa.
En la regresión lineal se estimaban los coeficientes por el método de mínimos cuadrados. En cambio, en la regresión logística y en la regresión de Cox no sirve el método de los mínimos cuadrados y hay que hacerlo por otros métodos cuya explicación excede los objetivos de este texto. Cuando se emplea el modelo de regresión de Cox se asume que la razón de tasas instantáneas es constante a lo largo del tiempo (los hazards son proporcionales, de ahí su nombre en inglés: proportional hazards model). Hay métodos para verificar si es cierta esta suposición y también hay técnicas que permiten trabajar con modelos de riesgo no proporcionales cuya descripción y análisis requerirían mucha más extensión que lo que permite este texto.
12.4.1. Conceptos de hazard y hazard ratio en una regresión de Cox
La interpretación de una regresión de Cox es muy parecida a la de la regresión logística. El parámetro de asociación que se obtiene con la regresión logística es la odds ratio, en cambio el que se obtiene en la regresión de Cox es una hazard ratio.
Para entender una hazard ratio es preciso entender antes qué es una hazard. El término hazard (() corresponde a una tasa instantánea, que conceptualmente sólo requiere una duración de tiempo infinitesimal (instantánea) para que ocurra el suceso.
Se entenderá esto al estudiar atentamente la figura 12.10. En ella se representan dos grupos de pacientes (a y b). En cada grupo hay 6 pacientes, seguidos hasta un máximo de 5 años, pero el tiempo de seguimiento varía de uno a otro paciente y su duración se representa por una línea horizaontal. Una D significa el momento en que ocurre la muerte de un paciente y una A significa el final del seguimiento para un paciente que se encontraba vivo al final del estudio. Se usa el signo de interrogación para aquellos pacientes que se perdieron, pero que la última noticia que se tiene de ellos es que seguían vivos.
Figura 12.10. Cálculo de la hazard a dos años ((2) en dos grupos (a y b) de 6 pacientes.
En el grupo a se ha producido una muerte a los dos años y había 5 pacientes a riesgo de morir en ese momento (el primero sólo había permanecido un año y medio en el estudio y por eso a los dos años ya no estaba "a riesgo"). La hazard se calcula simplemente dividiendo los sucesos ocurridos en ese instante (tiempo = 2 años) entre el total de sujetos a riesgo.
El hazard a los dos años será 0,2 en el grupo a y 0,33 en el grupo b.
Es conocido que una odds ratio es una razón de odds. Una hazard ratio es simplemente una razón de hazard. Para comparar ambos grupos (a y b) se dividirá una hazard entre otra. Si se toma como referencia el grupo a, la hazard ratio para el grupo b (respecto al a) será:
El grupo b tiene una mortalidad que es 1,67 veces mayor que la del b (un 67% superior). Pero esto es lo que ocurre cuando se les compara a los dos años.
Si se les comparase a los 3,5 años, su hazard ratio será 1. Si se les compara a los 5 años, también será 1. No se pueden hacer más comparaciones, pues en esta base de datos sólo hay muertes a los 2 años a los 3,5 y a los 5 años. Obviamente, si no se observan muertes no se pueden comparan sus riesgos de mortalidad.
Lo que hace el modelo de Cox es promediar de manera ponderada las hazard ratios de los diversos momentos en los que se produce alguna muerte. Viene a ser como hacer muchas regresiones logísticas, una para cada momentos en se observa alguna muerte.
12.4.2. Interpretación de una regresión de Cox
En la tabla 12.13 se recoge la salida que produciría SPSS para el ejemplo antes presentado.
Tabla 12.13. Ajuste de un modelo de Cox con
los datos de la figura 12.10
B | ET | Wald | gl | Sig. | Exp(B) | |||||||
grupo | 0,210 | 0,765 | 0,076 | 1 | 0,783 | 1,234 |
Para la variable grupo: grupo b = 1 y grupo a = 0.
Interpretación:
La hazard ratio global (promedio ponderado) es 1,234. Esto significa que globalmente la tasa de mortalidad es 1,234 veces superior en el grupo b que en el a (un 23,4% superior). Puede comprobarse que la hazard ratio se ha obtenido al exponenciar el número e al coeficiente b de regresión, ya que Exp (0,210) = 1,234. El error estándar del coeficiente b es 0,765. Se ha obtenido el test de Wald al dividir b entre su error estándar y elevar al cuadrado la cantidad resultante: (0,210/0,765)2 = 0,076. Este estadístico sigue una ji cuadrado con un grado de libertad y no es estadísticamente significativo (p=0,783). Puede comprobarse que el aspecto es prácticamente idéntico al de una regresión logística. La diferencia importante es que en la regresión de Cox Exp(b) no es una odds ratio, sino una hazard ratio.
Téngase en cuenta que además existen otras diferencias con respecto a la regresión logística:
? No se trata sólo de saber el efecto sobre la supervivencia a un tiempo determinado (por ejemplo, supervivencia a los 5 años), sino de valorar cuál es el efecto sobre la función de supervivencia (a lo largo de todo el periodo, sea cual sea el punto temporal que se elija). Si sólo interesase estudiar el efecto sobre la supervivencia en un punto del tiempo (por ejemplo, a los 5 años), entonces bastaría con un análisis de regresión logística, porque la variable de respuesta sería dicotómica (sí sobreviven o no sobreviven)
? La regresión de Cox puede ajustar por múltiples variables (al igual que la regresión multiple o logística). Pero en el análisis de supervivencia no bastaría una gresión logística comparando grupos a un tiempo determinado. Sólo la regresión de Cox permite afirmar que una supervivencia más ventajosa puede ser atribuida a un determinado tratamiento, porque, por ejemplo, comprueba que a igualdad de edad, sexo, estadio tumoral, etc, los pacientes que fueron tratados con transplante hepático sobrevivieron más en cualquier punto posible dentro del seguimiento que ha existido en el estudio.
? La regresión de Cox asume que hay cierta constancia o coincidencia en la razón de hazards (hazard ratio, HR) a lo largo del tiempo. Es decir, si a los 3 meses el hazard de un grupo es el doble que el del otro, en los otros momentos del tiempo también habrá una HR aproximadamente igual a 2. A este supuesto se le llama proporcionalidad de los hazards y de aquí viene el otro nombre que tiene la regresión de Cox (proportional hazards model). No serí alógico hacer un promedio de HR que sean muy diferentes entre sí.
12.4.3. Ecuación de la regresión de Cox
La ecuación de la regresión de Cox es:
Puede verse que, salvo el cambio de la variable dependiente, lo demás es bastante parecido al análisis de regresión logística. En la regresión logística la variable de respuesta o dependiente era el logit, o ln(p), mientras que en la regresión de Cox, la respuesta depende del tiempo y la variable dependiente es el logaritmo del hazard o tasa instantánea del evento. La tasa se diferencia del riesgo en que la tasa tiene en cuenta el tiempo (fallecimientos por unidad de tiempo) mientras que el riesgo sólo es una proporción y no tiene en cuenta más que el número de sujetos inicialmente a riesgo de fallecer. La tasa instantánea o hazard de fallecer en el instante "t" se obtendría, según el modelo de Cox antes visto al tomar antilogaritmos:
Ya se vio al tratar del método de Kaplan-Meier que la supervivencia a tiempo t (St) no es una cantidad numérica única, sino que va variando en función del tiempo. Téngase en cuenta que lo mismo sucede en el modelo de Cox con las tasas instantáneas o hazards en las que se basa. Tanto (t como (0 irán variando a lo largo del tiempo de observación o seguimiento (follow-up) durante el cual se prolongue el estudio.
Se demuestra que, para un factor pronóstico dicotómico xi que valga 1 para los expuestos a ese factor y 0 para los no expuestos, el hazard relativo o Hazard Ratio (HR) para ese factor valdrá:
Esta cantidad (Hazard Ratio o HR) es un cociente entre el riesgo instantáneo de fallecer en los que están expuestos a un factor y el riesgo instántaneo de fallecer en los que no están expuestos a ese factor. Este concepto se parece mucho al riesgo relativo o cociente entre dos riesgos. Pero cuando se habla de riesgos se suele hacer referencia simplemente a proporciones. En cambio la regresión de Cox lo que estima no son proporciones, sino tasas. Por eso el HR más que un riesgo relativo estima una razón de densidad de incidencia o razón de tasas. Por lo tanto, su utilidad es expresar la rapidez relativa con la cual un paciente pasa de un estado a otro. Esto se expresa con el término inglés hazard que es la tasa instantánea de ocurrencia de la enfermedad o el suceso de que se trate. La HR (exponenciales de los coeficientes dados por el modelo) es la razón entre dos Hazards. Una HR sería por ejemplo el cociente entre el riesgo instantáneo (hazard) en un tipo de pacientes, por ejemplo en hombres, y el hazard en las mujeres, siempre que a éstas se las haya considerado como referencia.
12.4.4. Ejemplo de regresión de Cox multivariable
El siguiente listado de SPSS se ha obtenido al pedir una regresión de Cox para valorar la influencia de varios factores en el riesgo de que pacientes transplantados cardiacos desarrollasen cáncer de piel no melanoma durante un seguimiento de 161 meses (España, 2000). Se ha simplificado el ejemplo, valorando sólo dos factores de riesgo. Por una parte se hace una comparación entre personas que han tenido 3 niveles de exposición previa al sol ("carga solar"), pero se tiene en cuenta tambiuén el riesgo según su tipo de piel ("fototipo", dicotomizada). Para la variable "carga solar" la referencia son los que menos expuestos han estado al sol, para la variable "fototipo" la referencia son quienes tienen pieles más rubias (se queman con el sol) y se calcula una hazard ratio para los morenos (se broncean con el sol, pero no se queman) respecto a los rubios (tabla 12.14).
Tabla 12.14. Modelo de Cox para valorar la exposición entre la exposición al sol,
el tipo de piel y el riesgo de cáncer de piel en transplantados cardiacos (España, 2000).
B | ET | Wald | gl | Sig. | Exp(B) | ||||||||
Carga solar | 0,0030 | ||||||||||||
Moderada | 2,0715 | 0,885 | 5,475 | 1 | 0,0193 | 7,9366 | |||||||
Intensa | 2,8213 | 0,896 | 9,919 | 1 | 0,0016 | 16,7994 | |||||||
Fototipo | -2,0341 | 0,492 | 17,123 | 1 | 0,0000 | 0,131 |
Puede comprobarse que se usaron dos variables dummies para la "carga solar" pues tenía 3 categorías (carga solar mínima como referencia). Tanto la carga solar moderada como intensa se asociaban de manera muy fuerte con el riesgo de desarrollar cáncer de piel. En los primeros (carga solar moderada) se multiplicaba el riesgo por 7,9 veces. En los expuestos a carga solar intensa se multiplicaba por más de 16 veces (HR = 16,8).
Por otra parte, la piel morena ofrecía una gran protección. Quienes tenían piel morena presentaban un riesgo que era sólo el 13,1% que el de los de piel rubia (HR = 0,131). Esto supone una reducción relativa del riesgo del 86,9%.
Los resultados son, pues, muy similares a los de la regresión logística. Es importante tener en cuenta que el riesgo relativo (HR) para el fototipo está ajustado por la carga solar. Esto significa que la carga solar ya no es un factor de confusión para la relación entre fototipo y cáncer de piel. Igualmente, el efecto de la carga solar está ajustado por fototipo. Esto implica que los HR presentados expresan riesgos relativos asociados a carga solar elevada a igualdad de fototipo.
Al interpreta la HR se debe pensar en una razón de tasas que es más alta en quienes tienen más exposición solar o en quienes tienen piel rubia. Es una medida relativa y, además asume, que esta razón entre los hazards se mantiene constante a lo largo de todo el período de seguimiento. Sus intervalos de confianza al 95% se pueden obtener como en la regresión logística y también son proporcionados por SPSS si se le piden.
IC 95% (HR) = EXP (b ( 1,96 EEb) = HR*EXP(( 1,96 EEb)
Página anterior | Volver al principio del trabajo | Página siguiente |