PROYECCIÓN DE PASAJEROS PARA LAN CHILE EN LA RUTA SANTIAGO ISLA DE PASCUA A TRAVÉS DE UN MODELO ARIMA
Enviado por gabrielcornejo
- Modelos
- Sobreajuste del Modelo
- Validación del Modelo
- Incorrelación de los errores
- Datos Modelo con todos los datos
En esta oportunidad trataremos de pronosticar la cantidad de pasajeros transportados por la Empresa Lan Chile, en la ruta Santiago – Isla de Pascua a través de un modelo ARIMA. Para lo anterior contamos con una serie de tiempo que parte en el mes de enero de 1990 y termina en junio de 2001, es decir 138 observaciones.
Dejaremos los últimos datos de la serie como periodo de validación, es decir el último semestre quedará reservado para efectos de comprobación de la capacidad predictiva del modelo.
A continuación se entrega un cuadro con las estadísticas básicas correspondientes a 132 observaciones.
Podemos ver que mensualmente, en promedio se han transportado 1.752 pasajeros (ida y vuelta) en la ruta bajo estudio. También, la cantidad más baja de pasajeros corresponde a 431 en junio de 1992 y la más alta a 4.612 en febrero de 2000. Por otro lado, el 50% de las observaciones se encuentra sobre los 1.559 pasajeros transportados.
Para analizar la serie temporal de pasajeros transportados se utilizará la metodología Box-Jenkins que es un procedimiento de análisis estadístico para ajustar a una serie un tipo especial de modelos, denominados ARIMA (Autorregresive Integrated Moving Average) Dicho análisis consta de las siguientes fases o etapas:
- Identificación de la estructura del modelo: decidir qué transformación aplicar a la serie observada para convertir el proceso subyacente en estacionario y determinar la estructura del proceso estacionario resultante. Se debe resaltar que algunas series de tiempo son estacionarias y no es necesario hacer transformación alguna.
- Estimación de los parámetros del modelo para el proceso estacionario.
- Diagnosis del modelo: Comprobar si se satisface la hipótesis de que los residuos obtenidos son una realización de un proceso de ruido blanco.
La primera etapa en el proceso de modelamiento o identificación del modelo univariante de una serie temporal, consiste en comprobar si esta es estacionaria en media y en varianza. Si además los datos de la serie están recogidos con una periodicidad inferior a un año (en el caso de la cantidad de pasajeros se trata de datos mensuales) tendremos que comprobar también si es estacionaria estacionalmente. En el caso que la serie no sea estacionaria, ya sea en varianza o en media, habrá que aplicarle las transformaciones necesarias para que lo sea.
En el gráfico de secuencia de la página anterior se puede observar que al parecer la serie no es estacionaria en varianza. Se puede ver que en los inicios de la serie hay un tipo de dispersión, en cambio a medida que se avanza en el tiempo, más o menos en la mitad y sobre todo al final de la serie, la dispersión de los datos es mucho mayor, lo que muestra indicios de no estacionariedad en varianza. Para detectar si la varianza de la serie es constante, es decir si no cambia con el tiempo, agruparemos las observaciones por años y aplicaremos la prueba de Levene para la homogeneidad de varianzas. Dado que el periodo de ajuste comprende desde 1900 hasta 2000, ambos años inclusive, dispondremos de 10 grupos con 12 observaciones cada uno. La prueba de Levene permitirá contrastar la hipótesis nula de que no existen diferencias significativas entre las varianzas de la serie pasajeros en los 10 grupos definidos. A continuación se muestra una tabla con los resultados y después un Box Plot o gráfico de cajas.
Utilizando la Prueba de Homogeneidad de Varianza de Levene, llegamos a la conclusión que no se puede aceptar al 5% la hipótesis nula de que las varianzas son las mismas a lo largo de los años. A la misma conclusión se llega observando el gráfico de caja. Uno se estaría preguntando, ¿si se llega a la misma conclusión, por qué no sólo hacer el gráfico? La respuesta es sencilla, el gráfico sólo nos da una referencia de lo que puede estar pasando, pero la respuesta definitiva la da la Prueba de Levene.
En el gráfico anterior, de nivel y dispersión nos podemos dar cuenta que a medida que pasa el tiempo, la varianza va aumentando, incluso la pendiente de la recta de regresión para la nube de puntos representada es 0,4. En todo caso, vuelvo a repetir, la confirmación de la falta de estabilidad de la varianza nos la proporciona el p-valor asociado a la prueba de Levene
Se vuelve a hacer la prueba pero ahora se le pide que transforme los datos aplicando logaritmo natural. Ahora es posible aceptar la hipótesis nula. En otras palabras, aplicando logaritmo natural, el problema de la falta de estabilidad de la varianza desaparece. Por lo que de ahora en adelante, se utilizará en la modelización el logaritmo natural de la cantidad de pasajeros.
La serie de datos también tiene que ser estacionaria en media, para comprobar lo anterior veremos algunos gráficos.
Se observa una clara tendencia alcista en los datos, lo que es el principal síntoma de no estacionariedad en media. Por otro lado, fíjense que hay algunos valores por debajo de la media y otros por sobre la media, lo que también indica no estacionariedad en media. La media es la línea negra.
El gráfico anterior nos muestra el correlograma de la serie, específicamente la función de autocorrelación. Nótese como los picos van descendiendo paulatinamente a cero, al memos los primeros 4 rezagos de la serie están fuera de los límites de confianza, otra evidencia de que la serie no es estacionaria en media.
También al observar el estadístico de Ljung-Box (LB) para los primeros 36 rezagos se concluye que la serie no es estacionaria en media, todos los p-valores correspondientes a los rezagos mayores a 1 hasta el 36 son cero.
Seguramente el lector se debe estar cuestionando el hecho de que descienden lentamente a cero y si ya ha estudiado o visto otros modelos ARIMA, en éste no es tan patente como aquellos, porque tiene una pequeña particularidad que se verá más adelante y que tiende a hacer no tan patente la visualización de la falta de estacionariedad y es que presenta una falta de estacionariedad también estacionalmente.
Para lograr la estacionariedad en media se procederá a diferenciar una vez la serie.
Ahora se observa que la serie ya no se va reduciendo paulatinamente a cero. Pero sí se observa más claramente la comentada falta de estacionariedad estacional. Fíjense como los rezagos 12, 24 y 36 se van reduciendo paulatinamente a cero, lo que estaría señalando que al parecer la serie tampoco es estacionaria estacionalmente.
Para estar más seguro de lo anterior se hará un correlograma de la función de autocorrelación mostrando sólo los rezagos múltiplos de 12.
Ahora sí se aprecia claramente que la serie no es estacionaria estacionalmente, por lo tanto será necesaria hacer también una diferenciación estacional.
Esperamos que después de todas estas transformaciones, llámese aplicación de logaritmos naturales y diferenciaciones, se muestre la estructura o la caja negra que genera la serie.
Se recuerda que la serie para hacerla estacionaria en varianza y en media, fue necesaria aplicarle logaritmo natural, hacerle una diferenciación a la parte no estacional y una diferenciación a la parte estacional. Esa es la serie que se seguirá aplicando desde ahora y para la cual buscaremos su identificación.
Para lograr lo anterior necesitamos 2 tipos de gráficos, la función de autocorrelación de nos muestra la presencia o no de las medias móviles del modelo (MA) y la función de autocorrelación parcial, que nos muestra la posible presencia de autocorrelaciones (AR)
Función de Autocorrelación
Función de Autocorrelación Parcial
Observando los gráficos anteriores se aprecia que la función de autocorrelación parcial desciende paulatinamente a cero y que la función de autocorrelación, después del primer rezago se cae abruptamente a cero, lo que podría estar señalando un proceso de generación MA1.
Por otra parte, observando la parte estacional de la serie, en el gráfico de autocorrelación parcial, se aprecia que los rezagos caen paulatinamente a cero, al menos se observa eso en los rezagos 12 y 24, en cambio en la función de autocorrelación el único rezago que cae fuera de los límites de confianza es el número 12 y después siempre sus múltiplos se encuentran dentro de los límites de confianza. Lo anterior nos dice que el proceso más apropiado es un MA1 para la parte estacional de la serie.
ARIMA (0,1,1) x (0,1,1) s
La nomenclatura anterior es una de las maneras de identificación de modelos ARIMA. El primer paréntesis señala la estructura no estacional de la serie, en particular señala que a la serie se le ha efectuado una diferenciación o se ha integrado, para hacerla estacionaria (de ahí viene la I de ARIMA) y que el modelo tiene un regresor de media móvil de primer orden MA1.
En el segundo paréntesis se denota la parte estacional de la serie. Se debe señalar que no todos los modelos arima tienen un segundo paréntesis, este lo tiene por que utiliza datos menores al año y por que éstos, al parecer, son parte de la caja negra que genera la serie y que estamos interesados en identificar. Volviendo a nuestra descripción, la parte estacional originalmente era no estacionaria, por eso se tuvo que diferenciar una vez y también el regresor del modelo es MA1, específicamente SMA1 (la S es por estacionalidad)
Datos
Error estándar : 0,18428
Log Likelihood : 27,9600
AIC : -51,9201
SBC : -46,3618
Regresores | B | SE B | T – RATIO | PROB. |
MA1 | 0,6192 | 0,07169 | 8,6376 | 0,0000000 |
SMA1 | 0,7551 | 0,09133 | 8,2681 | 0,0000000 |
El cuadro anterior muestra los estadísticos más importantes del modelo, lo que nos interesa en estos modelos es que sus regresores sean estadísticamente significativos, y eso nos lo señala la última columna. Los p-valores asociados a cada uno de los regresores es cero, en otras palabras a un 5% nivel de significancia se puede rechazar la hipótesis nula de que son cero.
El hecho de que el modelo identificado sea adecuado no debe hacer descartar la posibilidad de que otro modelo algo más complejo pueda ajustarse mejor a la serie observada. Para comprobar si algún modelo se ajusta mejor conviene utilizar la técnica del sobreajuste. El sobreajuste consiste en estimar cada uno de los modelos obtenidos al aumentar en una unidad cada uno de los órdenes p, q, P y Q
Por lo tanto, si el modelo candidato recién calculado es
ARIMA (0,1,1) x (0,1,1)s
Los sobreajustes serán:
1) ARIMA (1,1,1) x (0,1,1)s
2) ARIMA (0,1,2) x (0,1,1)s
3) ARIMA (0,1,1) x (1,1,1)s
4) ARIMA (0,1,1) x (0,1,2)s
Después de hacer los cálculos, se concluye:
El regresor AR1 del modelo 1 no era significativo
El regresor del modelo 2 no era significativo
Los regresores SMA1 y SMA2 del modelo 4 no eran significativos
Por lo tanto los modelo 1,2 y 4 fueron rechazados. El modelo 3 sí tuvo un buen resultado.
Datos Modelo 3 ARIMA (0,1,1) x (1,1,1)s
Error estándar : 0,18077
Log Likelihood : 29,3181
AIC : -52,6362
SBC : -44,2988
Regresores | B | SE B | T – RATIO | PROB. |
MA1 | 0,6374 | 0,07036 | 9,0590 | 0,00000 |
SAR1 | 0,2817 | 0,15143 | 1,8605 | 0,06534 |
SMA1 | 0,8995 | 0,24349 | 3,6944 | 0,00000 |
El único detalle que tiene este modelo es con relación al regresor de autocorrelación de primer orden de la parte estacional, el cual no es significativo al 5% pero sí al 10%.
Ya tenemos 2 modelos candidatos, ahora veremos cual de los 2 es mejor. Para saberlo nos fijaremos en cómo los modelos se ajustan a los datos al periodo de ajuste (enero de 1990 a diciembre de 2000) y al periodo de validación (enero 2001 a junio 2001)
Se utilizarán los errores de cada uno de los modelos para generar el estadístico RMS (Desviación típica de los errores), cuanto menor sea la RMS mejor se ajustará el modelo correspondiente.
ERR Mod_1 | ERR Mod_2 | ||
RMS | P. Ajuste | 0,1933 | 0,1918 |
P. Validación | 0,1507 | 0,1571 |
Si uno sólo se fija en el periodo de ajuste el segundo modelo, éste presenta un mejor ajuste, sin embargo al comparar el periodo de validación el primer modelo presenta un ajuste mucho mejor. Por lo tanto, tomando el principio de parsimonia, se tomará como modelo definitivo al primero. Por otro lado, debemos recordar que el segundo modelo contenía un regresor que no era estadísticamente significativo al 5% nivel de significancia.
Hemos supuesto que la serie histórica de pasajeros tiene memoria, hemos tratado de descubrir cuál es la caja negra que genera la serie bajo análisis. Si el modelo que se ha desarrollado es la caja negra, los residuos del modelo deberían cumplir una serie de características.
Estas características o la validación consistirá en comprobar que la serie errores tiene media cero, que es estable en varianzas, que sus observaciones están incorrelacionadas y que procede de una distribución normal. En otras palabras que sea un ruido blanco.
En el gráfico anterior se muestra el histograma de los residuos del modelo definitivo. Se puede ver que la media de los residuos es de 0,03. En el segundo cuadro se muestran algunas estadísticas de la misma variable, lo más rescatable que si se analiza el intervalo de confianza de la media, se aprecia que el mismo incluye el cero. Por lo tanto, se estaría cumpliendo con el supuesto de que el residuo del modelo presenta media igual a cero.
En los gráficos anteriores se muestran los gráficos de caja para los residuos agrupados por años. También se muestra la prueba de Levene, de acuerdo a la significancia (última columna) no hay suficiente evidencia para rechazar la hipótesis nula de homogeneidad de varianzas en los 10 grupos. De acuerdo a lo anterior, se estaría cumpliendo con el supuesto.
En ambos gráficos se puede apreciar que ninguno de los picos queda fuera del intervalo de confianza, por lo tanto los errores estarían incorrelacionados unos con otros. El estadístico de Ljung-Box hasta el rezago 16 tienen p-valores cercanos a la unidad con lo que se estaría señalando que no están correlacionados.
Normalidad
Para contrastar la Normalidad de los errores se recurre a la Prueba No Paramétrica de Kolmogorov-Smirnov. Según el p-valor no hay suficiente evidencia para rechazar la hipótesis nula de que los errores provienen de una distribución normal.
Ya se tiene el modelo definitivo, el mismo tiene residuos que cumplen con todos los supuestos de los Modelos ARIMA. Por lo tanto se procederá a hacer una proyección. Ahora se tomarán todos los datos, es decir los datos del ajuste y los datos de validación, en otras palabras la serie comienza en enero de 1990 y termina en junio de 2001. De esta manera se podrán comparar los datos verdaderos y las proyecciones que hace el modelo.
Datos Modelo con todos los datos
Error estándar : 0,18351
Log Likelihood : 30,3807
AIC : -56,7614
SBC : -51,1047
Regresores | B | SE B | T – RATIO | PROB. |
MA1 | 0,6294 | 0,06933 | 9,0785 | 0,0000000 |
SMA1 | 0,7425 | 0,08624 | 8,6098 | 0,0000000 |
Ahora que se han incluido todos los datos disponibles se aprecia que los regresores son muy parecidos a los del modelo que sólo incluían los del periodo de validación.
Por otra parte, los errores estándares de estos regresores son menores que el otro modelo, lo que señala que el hecho de haber incluido todos los datos no ha deteriorado la capacidad predictiva del modelo.
En las páginas siguientes se muestran cuadros con las proyecciones hechas por el modelo ARIMA, como asimismo un gráfico, los datos verdaderos, con las proyecciones y sus respectivos intervalos de confianza al 95%.
En los 3 últimos gráficos se han mostrado las proyecciones de pasajeros que viajarán en la ruta entre Santiago e Isla de Pascua para todo el año 2001.
Nótese en el gráfico la cercanía de las proyecciones con los datos reales para el primer semestre del año 2001.
Por último se incluyen los intervalos de confianza al 95% para las proyecciones del segundo semestre del año.
Pérez, César (2001). Técnicas Estadísticas con SPSS. Prentice Hall
Visauta, B. (1997). Análisis Estadístico con SPSS para Windows. McGraw Hill
Pindyck, R & Rubinfeld, R. (2001). Econometría modelos y pronósticos. McGraw Hill
Holton, J & Barry Keating. (1996). Previsiones en los negocios. Irwin
Gujarati, Damodar. (1997). Econometría. Mc Graw Hill
Marín, G., Labeaga, J.& Mochón, F. (1997) Introducción a la Econometría. Prentice Hall
Ferrán Aranaz, Magdalena (2001) SPSS para Windows Análisis Estadístico. Prentice may
Pérez Amaral, Amorós González & Relloso Pereda (1995) Ejercicios de Econometría Empresarial. McGraw Hill
Hanke J & Reitsch A (1996) Pronósticos en los Negocios. Prentice Hall
Material Preparado por
Gabriel Cornejo
Ingeniero Comercial