- Cálculo de Información a priori
- Diagramas de dispersión para encontrar relaciones visualmente
- Cálculo del Coeficiente de Correlación (R)
- Obtención de la Recta de Regresión con Mínimos Cuadrados
- Prueba T para adopción del Modelo de Regresión Lineal
- Contraste de Hipótesis para adoptar el modelo de Regresión Lineal
- Análisis del Coeficiente de Determinación (R2)
- Análisis de los Residuos
- Verificación en el Diagrama de Dispersión
- Análisis de los Residuos Estandarizados
- Análisis de la Criticidad de los Residuos
- Verificación de Hipótesis en el Modelo de Regresión
- Prueba Durbin-Watson para Independencia de Residuos
- Prueba de Homoescedasticidad
- Prueba de Szroeter para determinación de Homoescedasticidad
- Análisis de los Residuos Tipificados
Cálculo de Información a priori
Tenemos la solución determinística, ya que nos estamos guiando por el método Bayesiano, utilizando información a priori.
Para ver la tabla seleccione la opción "Descargar" del menú superior
Como podemos apreciar en la resolución determinística, la cosecha óptima (que produce el mayor beneficio neto), se logra cuando se utiliza una cantidad de aditivo equivalente al 8,53% de la cantidad de fertilizante utilizado. De hecho, la proporción ideal se logra cuando se utilizan 75 kilos de fertilizante y 6,4 kilos de aditivo por hectárea, lo cual es la combinación utilizada en la parcela No. 32, la cual resultó ser la parcela con mayor beneficio neto. Esta información, proveniente de un análisis determinístico de la data, será utilizada como información a priori, para el análisis estadístico de la data según la tendencia Bayesiana. Para mayor detalle, favor consultar anexo no. 1
Diagramas de dispersión para encontrar relaciones visualmente
Posteriomente analizamos los diagramas de dispersión tanto de la Cosecha vs. Fertilizante como de la Cosecha vs. Aditivo. Este análisis visual nos permite confirmar en cierta medida la relación positiva que suponemos existe entre la cantidad de toneladas cosechadas y el fertilizante y el aditivo.
Para ver el gráfico seleccione la opción ¨Descargar trabajo¨ del menú superior
En el caso del Aditivo también apreciamos una relación positiva, algo más débil entre las variables. La cosecha crece directamente proporcional a la cantidad de Aditivo aplicado, aunque la varianza es mucho mayor que con el Fertilizante.
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Igual que en el caso del Fertilizante, a partir de cierto punto la utilización de mayor cantidad de aditivo pasa a perjudicar la cosecha.
Sin embargo, hay un punto a partir del cual la curva de crecimiento se estabiliza, siendo marginalmente creciente e incluso, a partir de cierta cantidad, negativa, porque la cantidad de Fertilizante adicional más bien perjudica la cosecha
En el caso del Aditivo también apreciamos una relación positiva, algo más débil entre las variables. La cosecha crece directamente proporcional a la cantidad de Aditivo aplicado, aunque la varianza es mucho mayor que con el Fertilizante.
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Cálculo del Coeficiente de Correlación (R)
Estas relaciones positivas, evidentes a simple vistas van a ser confirmadas por el Coeficiente de Correlación, cuyo valor es de 0.854 para el Fertilizante y de 0.674 para el Aditivo. Sin embargo, debemos proceder a análisis probabilìsticos más profundos para reducir la incertidumbre.
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Obtención de la Recta de Regresión con Mínimos Cuadrados
Para ver el gráfico seleccione la opción "Descargar" del menú superior
La Recta de Regresión queda de la siguiente manera, según datos obtenidos por SPSS: 11.308+0.112X Si solo consideramos al Fertilizante como variable, dentro de una Regresión Lineal Simple.
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Solo a manera ilustrativa, determinaremos la Recta de Regresión para el Aditivo. Ceteris Paribus tendríamos 13.867+0.111X. Esta Recta de Corrección ya tiene la corrección sugerida en cuanto utilizar los valores de X en vez de los x transformados.
Sin embargo, el Aditivo es un Regresor adicional, y no debemos olvidar la presencia primigenia del Fertilizante.
En dado caso, debemos hacer una Regresión Multivariada para medir la influencia del factor Aditivo, sin dejar de lado la influencia del Fertilizante en los resultados de las hectáreas donde también está ejerciendo influencia el Aditivo.
Contraste de Hipótesis para adoptar el modelo de Regresión Lineal
Para este Contraste de Hipótesis, se utilizarán los primeros veinte datos únicamente, para crear un modelo de Regresión Lineal Simple en el cual se tenga una sola variable independiente. Posteriormente, se hará un análisis con los últimos 20 datos utilizando la técnica de Regresión Lineal Multivariada.
Estos son los datos a utilizar:
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Y como resultados de la regresión obtenemos los siguientes estadísticos:
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Como se puede apreciar, el valor estimado de Beta difiere de cero, siendo 0.1117, por lo cual se puede rechazar la Hipótesis Nula de que la Esperanza de Y dado X es una constante, es decir, no depende de X.
Prueba T para adopción del Modelo de Regresión Lineal
Adicionalmente hacemos la Prueba T, contrastando el t obtenido, de 6.9647 con el valor crítico para n=18 (porque restamos 2 grados de libertad), con una significación de 5% e incluso de 1%.
El valor crítico arrojado es 2.101 y 2.878 respectivamente, ambos mejores que el t obtenido. Por ende, rechazamos nuevamente la H0 y adoptamos el modelo de regresión planteado.
Análisis del Coeficiente de Determinación (R2)
Como podemos apreciar en los datos mostrados arriba, el R2 tiene un valor de 0.7294, por ende, consideramos que el modelo es de buena calidad, ya que la variable independiente "Fertilizante" tiene una capacidad explicativa de 72% del fenómeno.
Ahora procederemos al análisis de los Residuos, para evaluar la presencia de observaciones inusuales en la muestra y para comprobar la validez de las hipótesis fundamentales del modelo, como son: independencia, normalidad de las observaciones e igualdad de varianzas de los errores ei (Homoescedasticidad).
Verificación en el Diagrama de Dispersión
Nuevamente nos referimos al Diagrama de Dispersión, esta vez con el trazado de la Recta de Regresión. Como podemos apreciar
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Como podemos apreciar, existen puntos que se alejan significativamente de la Recta de Regresión. Como están muy alejadas de la tendencia aparente de la muestra, vamos a analizar los errores residuales para detectar outliers.
Análisis de los Residuos Estandarizados
Primeramente, analizamos los Residuos Estandarizados utilizando la plantilla "Regresión Simple – Modelo y Análisis de Residuos Estandarizados". Ya que es una Regresión Lineal Simple, utilizaremos el gráfico de Residuos Estandarizados Vs. X (utilizaríamos vs. Y si fuera Regresión Multivariada).
Preferimos realizar un análisis con Residuos Estandarizados, por la ventaja de su adimensionalidad y por la ventaja de que todos los Residuos tendrán la misma Varianza, por lo que el gráfico es más fácil de interpretar.
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Podemos apreciar que ninguno de los residuos excede las bandas creadas con un 5% de significación, por lo cual podemos concluir que no hay observaciones inusuales. Sin embargo, el Residuo No. 9 se encuentra muy próximo a la banda superior, ya que su valor es de 1.9816, por ende, nos interesaría analizarlo en más detalle.
Sin embargo, debemos recordar que al trabajar a un nivel de significación de 5%, deberíamos esperar que en una muestra de 20 observaciones, haya una que tenga un valor así. Sin embargo, no la vamos a descartar como "inusual" porque no tenemos ninguna sospecha de errores en medición, fallo en trascripción de datos o de que dicha observación provenga de otra población.
Sin embargo, para salir de toda duda, más adelante haremos un análisis de los Residuos Independizados.
Análisis de la Criticidad de los Residuos
Como se puede apreciar en la tabla a continuación, proveniente del análisis de los Residuos Estandarizados, ninguno de los residuos resultó ser crítico al nivel de significación 5%.
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Sin embargo, cuando hacemos el análisis de los Residuos Independizados, la observación No. 9, que nos parecía sospechosa por acercarse a la banda superior, resulta crítica al 5%. Sin embargo, caemos en el dilema de si descartarla o no, porque no tenemos sospecha de ningún error de los mencionados anteriormente.
Recordemos que a pesar de que una observación pueda considerarse estadísticamente inusual, el hecho de que encontremos cierto número de ellas presentes, no es inusual.
Por ende, aplicamos el criterio de "alarmarnos" si el número de observaciones estadísticamente inusuales supera el resultado de la siguiente fórmula:
Este no es el caso, ya que la alarma surge cuando excede a 2.9493. Por ende, la mantenemos.
Por otro lado, para 20 observaciones, la Esperanza Matemática del número de observaciones inusuales al 5% es 0.05(20)=1 y la Desviación Estándar es
lo cual equivale a 0.9746, es decir, a +/- una observación. En resumen, estaríamos hablando de que encontrar entre 0 y 2 observaciones inusuales sería usual con este nivel de significación.
Verificación de Hipótesis en el Modelo de Regresión
Primeramente, analizamos los gráficos de Residuos vs. X y Residuos vs. Y, para ver si encontramos algún patrón que nos sugiera dependencia de las variables.
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Como podemos apreciar, no se evidencia ningún patrón que nos indique posible violación de la Hipótesis de Independencia.
Prueba Durbin-Watson para Independencia de Residuos
Vamos a analizar ahora la correlación de cada Residuo con el anterior, o Autocorrelación, con la prueba Durbin-Watson. Nuestra H0 es que los Residuos son Independientes, mientras que la H1 es que los residuos sí están correlacionados, en este caso de manera positiva.
Como podemos ver en la extrema derecha de los resultados siguientes, el valor de la prueba arroja 1.128. Los residuos entonces parecen estar correlacionados, ya que el resultado es menor que 2. Además, al comparar con el valor crítico de la Estadística d de Durbin Watson al 5%, el cual es 1.201, vemos que nuestro resultado es menor, por lo cual se rechaza la hipótesis de independencia entre los residuos a favor de la existencia de autocorrelación entre ellos.
Cabe acotar que no se reordenó la data de ninguna manera, ya que el ordenamiento no parecía un factor clave en este caso.
Tenemos que verificar la existencia de Homoescedasticidad vs. Heteroescedasticidad. Anteriormente ya negamos la existencia de patrones –al menos visualmente perceptibles- en los gráficos de Residuos vs. X y vs. Y. Ahora haremos un Diagrama de Residuos Cuadráticos.
Mediante inspección visual constatamos que no se aprecia ningún tipo de patrón entre los residuos que nos haga suponer la existencia de Heteroescedasticidad.
Prueba de Szroeter para determinación de Homoescedasticidad
Para ver el gráfico seleccione la opción "Descargar" del menú superior
Al hacer la prueba de Szroeter, obtenemos los siguientes resultados, los cuales nos permiten concluir que se debe rechazar la hipótesis de Heteroescedasticidad, ya que el Valor de Probabilidad de Q es mayor que P (Z>Q)=0.370. Por ende, nos quedamos con la Hipótesis de Homoescedasticidad.
Análisis de los Residuos Tipificados
En el gráfico podemos analizar la Normalidad de los residuos tipificados. Cuando n es grande, todos los puntos deberían caer en el recta. En nuestro caso aceptamos una mínima desviación, ya que n=20, y no rechazamos Normalidad.
Para ver el gráfico seleccione la opción "Descargar" del menú superior
A continuación haremos un análisis de Regresión Múltiple, incluyendo al Aditivo como Regresor, debido al poder explicativo que inferimos según el análisis determinístico previo y por las primeras evidencias visuales en los diagramas de dispersión.
Mónica Correa Molnar