Descargar

Métodos lineales y estimación por mínimos cuadrados

Enviado por victor_j_mata


     

    1. Introducción
    2. Métodos de los mínimos cuadrados
    3. Error estándar en la estimación
    4. Coeficiente de determinación
    5. Coeficiente de correlación
    6. Regresión lineal múltiple
    7. Estimación de los coeficientes
    8. Inferencias en la regresión lineal múltiple
    9. Predicción
    10. Correlación
    11. Bibliografía

     

    INTRODUCCIÓN

    El presente trabajo forma parte de los objetivos y contenidos de aprendizaje de la cátedra ESTADÍSTICA, que pretende desarrollar las habilidades para la utilización de los métodos lineales y estimación de mínimos cuadrados.

    Para lograr este fin, se realizo la consulta de una bibliografía básica la cual permitió desarrollar los conceptos y ejemplos, como base para realizar una exposición adecuada en el salón de clases.

    En este trabajo básicamente se habla de cómo desarrollar la aplicación de los métodos lineales y estimación por mínimos cuadrados, además de inferencia, predicción y correlación.

    Se desarrollaron una serie de ejemplos mediante los cuales se trata de presentar manera mas sencilla usar estos métodos.

    El Equipo # 4

     

    Métodos de mínimos cuadrados.

    El procedimiento mas objetivo para ajustar una recta a un conjunto de datos presentados en

    un diagrama de dispersión se conoce como "el método de los mínimos cuadrados". La recta

    resultante presenta dos características importantes:

    1. Es nula la suma de las desviaciones verticales de los puntos a partir de la recta de ajuste

    ∑ (Yー – Y) = 0.

    2. Es mínima la suma de los cuadrados de dichas desviaciones. Ninguna otra recta daría

    una suma menor de las desviaciones elevadas al cuadrado ∑ (Yー – Y)² → 0

    (mínima).

    El procedimiento consiste entonces en minimizar los residuos al cuadrado Ci²

    Re emplazando nos queda

     

    La obtención de los valores de a y b que minimizan esta función es un problema que se puede resolver recurriendo a la derivación parcial de la función en términos de a y b: llamemos G a la función que se va a minimizar:

     

    Tomemos las derivadas parciales de G respecto de a y b que son las incógnitas y las igualamos a cero; de esta forma se obtienen dos ecuaciones llamadas ecuaciones normales del modelo que pueden ser resueltas por cualquier método ya sea igualación o matrices para obtener los valores de a y b.

     

     

    Derivamos parcialmente la ecuación respecto de a

      Primera ecuación normal

     

    Derivamos parcialmente la ecuación respecto de b

      Segunda ecuación normal

     

    Los valores de a y b se obtienen resolviendo el sistema de ecuaciones resultante. Veamos el siguiente ejemplo:

    En un estudio económico se desea saber la relación entre el nivel de instrucción de las personas y el ingreso.

    EJEMPLO 1

    Se toma una muestra aleatoria de 8 ciudades de una región geográfica de 13 departamentos y se determina por los datos del censo el porcentaje de graduados en educación superior y la mediana del ingreso de cada ciudad, los resultados son los siguientes:  

    CIUDAD : 1 2 3 4 5 6 7 8

    % de (X)

    Graduados : 7.2 6.7 17.0 12.5 6.3 23.9 6.0 10.2

    Ingreso (Y)

    Mediana : 4.2 4.9 7.0 6.2 3.8 7.6 4.4 5.4 (0000)

     

    Tenemos las ecuaciones normales

     

    ∑y = na + b∑x

    ∑xy = a∑x + b∑x²

     

    Debemos encontrar los términos de las ecuaciones

    ∑y, ∑x, ∑xy, ∑ x² Por tanto procedemos de la siguiente forma:

     

    Y

    X

    XY

     

     

     

     

    4.2

    7.2

    30.24

    51.84

    4.9

    6.7

    32.83

    44.89

    7.0

    17.0

    119.00

    289.00

    6.2

    12.5

    77.50

    156.25

    3.8

    6.3

    23.94

    39.69

    7.6

    23.9

    181.64

    571.21

    4.4

    6.0

    26.40

    36.00

    5.4

    10.2

    55.08

    104.04

    43.5

    89.8

    546.63

    1292.92

     

    Sustituyendo en las ecuaciones los resultados obtenidos tenemos: 43.50 = 8a + 89.8b

    546.63 = 89.8a + 1292.92b

    multiplicamos la primera ecuación por (-89.8) y la segunda por (8) así:

    43.50 = 8a + 89.8b (-89.8) 546.63 = 89.8a + 1292.92b (8)

    -3906.30 = -718.4a – 8064.04b 4373.04 = 718.4a + 10343.36b

    466.74 = -0- 2279.32b

     

    Este valor de b lo reemplazamos en cualquiera de las ecuaciones para obtener a así:

     

    Reemplazando b = 0.20477 en la primera ecuación normal

     

    43.5 = 8a + 89.8 (0.20477) 43.5 = 8a + 18.3880 43.5 – 18.3880 = 8a 25.1120 = 8a

    Tenemos entonces que los coeficientes de regresión son : a = 3.139 y b = 0.20477. Por tanto la ecuación de regresión nos queda:

    Significa entonces que por cada incremento en una unidad en X el valor de se aumenta en 0.20477

    Esta ecuación permite estimar el valor de para cualquier valor de X, por ejemplo: Una ciudad que tiene un porcentaje de graduados a nivel superior del 28% la mediana de ingreso para la ciudad será:

     

    Los valores a y b también se pueden obtener de la siguiente forma: partiendo de las ecuaciones normales tenemos:

    Si dividimos todos los términos de la ecuación (1) entre n nos queda:

     

    Tenemos entonces que el primer termino es el segundo termino es la incógnita a y el tercer termino es la incógnita b multiplicada por por tanto nos queda:

     

      entonces

     

     

    Reemplazando a en la ecuación (2) tenemos

     

     

    a = 5.4375 – 0.20477 (11.2250) = 5.4375 – 2.2985 = 3.139

    Se debe tener presente la diferencia entre el valor de obtenido con la ecuación de regresión y el valor de Y observado. Mientras es una estimación y su bondad en la estimación depende de lo estrecha que sea la relación entre las dos variables que se estudian; Yー es el valor efectivo, verdadero obtenido mediante la observación del investigador. En el ejemplo Yー es el valor mediano del ingreso que obtuvo el investigador

    utilizando todos los ingresos observados en cada ciudad y es el valor estimado con base en el modelo lineal utilizado para obtener la ecuación de regresión

    Los valores estimados y observados pueden no ser iguales por ejemplo la primera ciudad tiene un ingreso mediano observado de Yー = 4.2 al reemplazar en la ecuación el porcentaje

    de graduados obtenemos un estimado de

    Gráficamente lo anterior se puede mostrar así:

     

    Claramente se observa en la gráfica que hay una diferencia entre el valor efectivo de Yー y el valor estimado; esta diferencia se conoce como error en la estimación, este error se puede medir. A continuación se verá el procedimiento.

    Error estándar en la estimación

    El error estándar de la estimación designado por sYX mide la disparidad "promedio" entre

    los valores observados y los valores estimados de . Se utiliza la siguiente formula.

    Debemos entonces calcular los valores de para cada ciudad sustituyendo en la ecuación los valores de los porcentajes de graduados de cada ciudad estudiada.

     

    Y

    X

    4.2

    7.2

    4.6

    -0.4

    0.16

    4.9

    6.7

    4.5

    0.4

    0.16

    7.0

    17.0

    6.6

    0.4

    0.16

    6.2

    12.5

    5.7

    0.5

    0.25

    3.8

    6.3

    4.4

    -0.6

    0.36

    7.6

    23.9

    8.0

    -0.4

    0.16

    4.4

    6.0

    4.4

    0.0

    0.00

    5.4

    10.2

    5.2

    0.2

    0.04

     

     

     

     

    1.29

     

    Syx = 0.46 (decenas de miles $)

     

    Como esta medida trata de resumir la disparidad entre lo observado y lo estimado, es decir, trata de medir la diferencia promedio entre lo observado y lo estimado ó esperado de acuerdo al modelo, puede considerarse como un indicador del grado de precisión con que la ecuación de regresión, describe la relación entre las dos variables. Este error estándar se ve afectado por las unidades y sus cambios ya que es una medida absoluta, pues, se da en la misma unidad de medida que esta dada la variable Y; en el ejemplo 0.46 serán decenas de miles de pesos, razón por la cual no es posible comparar con las relaciones de variables dadas en distinta unidad de medida. Es necesario entonces calcular una medida que interprete o mida mejor el grado de relación entre las variables.

     

    Coeficiente de determinación.

    El cambio de la variable Y generalmente depende de muchos factores, en ocasiones, difíciles de identificar; con el modelo lineal simple, sólo tenemos presente uno. Por ejemplo, en nuestro caso la mediana del ingreso depende no sólo del porcentaje de graduados en el nivel superior, que es, el factor que tenemos presente, pueden entrar a jugar factores tales como, la distribución de la edad en la población, la distribución por sexo en la población, la industrialización de la ciudad, el numero de universidades y muchos otros.

    El coeficiente de determinación mide o interpreta la cantidad relativa de la variación que ha sido explicada por la recta de regresión, es decir, la proporción de cambio en Y explicado por un cambio en la variable X ( X es el factor que se utiliza para calcular la recta de ajuste o ecuación de regresión, en el ejemplo es el porcentaje de graduados en el nivel superior en cada ciudad).

    Para el ejemplo el Coeficiente de determinación va a medir la proporción del cambio en el ingreso mediano de cada ciudad, debido o explicado por un cambio en el porcentaje de graduados en el nivel superior.

    Veamos algunos componentes de la variabilidad en el análisis de regresión:

    La diferencia entre cada valor de Yー observado y media se denomina variación de Y.

    La diferencia entre estimado y media , es la variación tenida en cuenta por la ecuación de regresión, razón por la cual se denomina variación explicada de Y.

     

    La diferencia entre Yー observado y estimado, son variaciones consideradas debidas a factores diferentes al tenido presente por la ecuación de regresión por eso se llama: variación no explicada de Y.

    La diferencia entre Yー observado y estimado, son variaciones consideradas debidas a factores diferentes al tenido presente por la ecuación de regresión por eso se llama: variación no explicada de Y.

     

    La sumatoria de las diferencias en cada una de las formas de variación la podemos representar así:

     

     

    Gráficamente esta relación se puede representar así:

    Se dijo anteriormente, que el coeficiente de determinación es la proporción de cambio explicado en Y, por cambio en X, es decir, la proporción que representa la variación explicada de la variación total. Recuerde una proporción es la relación de una parte con el total, por tanto, el coeficiente de determinación será:

     

    En otras palabras el coeficiente de determinación es la relación entre la variación explicada y la variación total. Su valor siempre estará

    Para su calculo se procede así:

     

    4.2

    5.44

    -1.24

    1.54

    4.6

    -0.84

    0.71

    -0.4

    0.16

    4.9

    5.44

    -1.24

    0.29

    4.5

    -0.84

    0.88

    0.4

    0.16

    7.0

    5.44

    1.56

    2.43

    6.6

    1.16

    1.35

    0.4

    0.16

    6.2

    5.44

    0.76

    0.58

    5.7

    0.26

    0.07

    0.5

    0.25

    3.8

    5.44

    1.64

    2.69

    4.4

    -1.04

    1.08

    -0.6

    0.36

    7.6

    5.44

    2.16

    4.66

    8.0

    2.56

    6.55

    -0.4

    0.16

    4.4

    5.44

    1.04

    1.08

    4.4

    -1.04

    1.08

    0.0

    0.00

    5.4

    5.44

    0.4

    0.001

    5.2

    -0.24

    0.06

    0.2

    0.04

     

     

     

     

     

     

     

     

     

    43.5

     

     

    13.271

     

     

    11.78

     

    1.29

     

    Generalmente esta proporción se expresa como porcentaje por tanto podemos decir que

     

    r² = 88.76%

     

    como conclusión podemos decir que el 88.76% de la variación en el ingreso mediano de las ciudades de la muestra esta relacionada o explicada por la variación en el porcentaje de graduados en educación Superior en cada ciudad.

     

    Coeficiente de correlación

    Este Coeficiente como ya se dijo mide la fuerza de la relación entre las variables. El coeficiente tiene el signo que tiene b y su valor estará El signo menos en el índice significa una relación negativa y un signo más una correlación positiva. El coeficiente se obtiene sacando la raíz cuadrada al coeficiente de determinación y se simboliza con "r".

    En este caso el coeficiente r tiene signo positivo ya que toma el valor de b obtenido con las ecuaciones normales toma valor positivo.

    A continuación se da, a modo de orientación , como podrían interpretarse los valores de r (positivo o negativo)

     

    0.0

    a

    0.2

    Correlación muy débil, despreciable

    0.2

    a

    0.4

    Correlación débil. bajo

    0.4

    a

    0.7

    Correlación moderada

    0.7

    a

    0.9

    Correlación fuerte, alto, importante

    0.9

    a

    1.0

    Correlación muy fuerte, muy alto

     

    La correlación entre los valores de dos variables es un hecho. El que lo consideremos satisfactorio o no, depende de la interpretación. Otro problema que representa la correlación es cuando se pregunta si una variable, de algún modo causa o determina a la otra. La correlación no implica causalidad. Si las variables X e Y están correlacionadas, esto puede ser por que X causa a Y, o porque Y causa a X o porque alguna otra variable afecta tanto a X como Y, o por una combinación de todas estas razones; o puede ser que la relación sea una coincidencia.

     

    Modelo de regresión lineal con el uso de matrices.

    Al ajustar un modelo de regresión lineal múltiple, en particular cuando el número de variables pasa de dos, el conocimiento de la teoría matricial puede facilitar las manipulaciones matemáticas de forma considerable. Suponga que el experimentador tiene k variables independientes x1, x2,….,xk, y n observaciones y1, y2,…., yn, cada una de las cuales se pueden expresar por la ecuación

    yi = b 0 + b 1x1i +b 2x2i +….+ b kxki +e i

    Este modelo en esencia representa n ecuaciones que describen cómo se generan los valores de respuesta en el proceso científico. Con el uso de la notación matricial, podemos escribir la ecuación

    y=Xb + e

    donde

    Entonces la solución de mínimos cuadrados para la estimación de b que se ilustra en la sección Estimación de coeficientes, "Regresión lineal múltiple" implica encontrar b para la que

    SSE = (y – Xb)'(y – Xb)

    se minimiza. Este proceso de minimización implica resolver para b en la ecuación

    No presentaremos los detalles relacionados con las soluciones de las ecuaciones anteriores. El resultado se reduce a la solución de b en

    (X'X)b = X'y

     

    Nótese la naturaleza de la matriz X. Aparte del elemento inicial, el i-ésimo renglón representa los valores x que dan lugar a la respuesta yi. Al escribir

     

    y

    las ecuaciones normales se pueden escribir en la forma matricial

    AB=g

    Si la matriz A es no singular, podemos escribir la solución para el coeficiente de regresión como

    b = A-1g =(X’X)-1X’y

    De esta forma se puede obtener la ecuación de predicción o la ecuación de regresión al resolver un conjunto de k + 1 ecuaciones con un número igual de incógnitas. Esto implica la inversión de la matriz X'X de k + 1 por k + 1. Las técnicas para invertir esta matriz se explican en la mayoría de los libros de texto sobre determinantes y matrices elementales. Por supuesto, se dispone de muchos paquetes de computadora de alta velocidad para problemas de regresión múltiple, paquetes que no sólo imprimen estimaciones de los coeficientes de regresión, sino que también proporcionan otra información relevante para hacer inferencias respecto a la ecuación de regresión.

    Ejemplo 1

    Se midió el porcentaje de sobrevivencia de cierto tipo de semen animal, después del almacenamiento, en varias combinaciones de concentraciones de tres materiales que se utilizan para aumentar su oportunidad de sobrevivencia. Los datos son los siguientes:

     

    y(% sobrevivencia)

    x1(peso %)

    x2(peso %)

    x3(peso %)

    25,5

    1,74

    5,30

    10,80

    31,2

    6,32

    5,42

    9,40

    25,9

    6,22

    8,41

    7,20

    38,4

    10,52

    4,63

    8,50

    18,4

    1,19

    11,60

    9,40

    26,7

    1,22

    5,85

    9,90

    26,4

    4,10

    6,62

    8

    25,9

    6,32

    8,72

    9,10

    32

    4,08

    4,42

    8,70

    25,2

    4,15

    7,60

    9,20

    39,7

    10,15

    4,83

    9,40

    35,7

    1,72

    3,12

    7,60

    26,5

    1,70

    5,30

    8,20

     

    Estime el modelo de regresión lineal múltiple para los datos dados.

    SOLUCIÓN:

    Las ecuaciones de estimación de mínimos cuadrados, (X'X)b = X'y, son

    =

    De los resultados de una computadora obtenemos los elementos de la matriz inversa

    y después, con el uso de la relación b = (X’X)-1 X’y, los coeficientes estimados de regresión son

    b0= 39.1574, b1 = 1.0161, b2 = -1.8616, b3 = -0.3433.

    De aquí nuestra ecuación de regresión estimada es

    Para el caso de una sola variable independiente, el grado del polinomio de mejor ajuste a menudo se puede determinar al graficar un diagrama de dispersión de los datos que se obtienen de un experimento que da n pares de observaciones de la forma {(xi, yi); i = 1, 2, …. n}.

     

    =

    Al resolver estas r + 1 ecuaciones, obtenemos las estimaciones b0, b1,….., br y por ello generamos la ecuación de predicción de regresión polinomial

    El procedimiento para ajustar un modelo de regresión polinomial se puede generalizar al caso de más de una variable independiente. De hecho, el estudiante de análisis de regresión debe, en esta etapa, tener la facilidad para ajustar cualquier modelo lineal en, digamos, k variables independientes. Suponga, por ejemplo, que tenemos una respuesta Y con k = 2 variables independientes y se postula un modelo cuadrático del tipo

    yi = b 0 + b 1x1i + b 2x2i +b 11x21i+ b 22x22i+b 12x1i x2i+e I

    donde yi, i = 1, 2, …, n, es la respuesta para la combinación (x1i, x2i) de las variables independientes en el experimento. En esta situación n debe ser al menos 6, pues hay seis parámetros a estimar mediante el procedimiento de mínimos cuadrados. Además, como el modelo contiene términos cuadráticos en ambas variables, se deben usar al menos tres niveles de cada variable. El lector debe verificar con facilidad que las ecuaciones normales de mínimos cuadrados (X'X)b = X'y están dadas por:

     

    =

     

    Ejemplo 2

    Los siguientes datos representan el porcentaje de impurezas que ocurren a varias temperaturas y tiempos de esterilización durante una reacción asociada con la fabricación de cierta bebida.

     

    Tiempo de esterilización, x2 (min)

    Temperatura, x1 (°C)

    75

    100

    125

    15

    14.05

    10.55

    7.55

     

     

    14.93

    9.48

    6.59

    20

    16.56

    13.63

    9.23

     

     

    15.85

    11.75

    8.78

    25

    22.41

    18.55

    15.93

     

     

    21.66

    17.98

    16.44

     

     

    Estimar los coeficientes de regresión en el modelo

    m Y|x = b 0 + b 1 x1 +b 2 x2+b 11 x12+b 22 x22+ ……..+ b 12 x1 x2

    SOLUCIÓN:

    b0 = 56,4668

     

    b11 =0,00081

    b1 = -0,36235

     

    b22 = 0,08171

    b2 = -2,75299

     

    b12 = 0,00314

     

    y nuestra ecuación de regresión estimada es

    Muchos de los principios y procedimientos asociados con la estimación de funciones de regresión polinomial caen en la categoría de la metodología de respuesta superficial, un conjunto de técnicas que los científicos e ingenieros han utilizado con bastante éxito en muchos campos. Problemas como la selección de un diseño experimental apropiado, en particular para casos donde hay un número grande de variables en el modelo, y la elección de las condiciones "óptimas" de operación sobre x1,x2,…..,xk a menudo se aproximan a través del uso de estos métodos. Para una exposición más amplia se remite al lector a Response Surface Methodology: Process and Product Optimization Using Designed Experiments de Myers y Montgomery.

    Regresión lineal múltiple.

    En la mayor parte de los problemas de investigación donde se aplica el análisis de regresión se necesita más de una variable independiente en el modelo de regresión. La complejidad de la mayor parte de los mecanismos científicos es tal que para ser capaces de predecir una respuesta importante se necesita un modelo de regresión múltiple. Cuando este modelo es lineal en los coeficientes se denomina modelo de regresión lineal múltiple. Para el caso de k variables independientes X1, X2,….,Xk, la media de Y| X1, X2,….,XK está dada por el modelo de regresión lineal múltiple

    m Y|x1, x2 ,………, xk = b 0 + b 1 x1 +……..+ b k xk

     

    y la respuesta estimada se obtiene de la ecuación de regresión de la muestra

    donde cada coeficiente de regresión b i se estima por bi de los datos de la muestra con el uso del método de mínimos cuadrados. Como en el caso de una sola variable independiente, el modelo de regresión lineal múltiple a menudo puede ser una representación adecuada de una estructura más complicada dentro de ciertos rangos de las variables independientes.

    Técnicas de mínimos cuadrados similares también se pueden aplicar al estimar los coeficientes cuando el modelo lineal involucra, digamos, potencias y productos de las variables independientes. Por ejemplo, cuando k = 1, el experimentador puede pensar que las medias m Y|x1 no caen en una línea recta pero que se describen de forma más apropiada con el modelo de regresión polinomial

     

    m Y|x = b 0 + b 1 x +b 2 x2+ ……..+ b r xr

     

    y la respuesta estimada se obtiene de la ecuación de regresión polinomial

    En ocasiones surge confusión cuando hablamos de un modelo polinomial como de un modelo lineal. Sin embargo, los estadísticos por lo general se refieren a un modelo lineal como uno en el cual los parámetros ocurren linealmente, sin importar cómo entran las variables independientes al modelo. Un ejemplo de un modelo no lineal es la relación exponencial

    m Y|x = a b x,

    que se estima con la ecuación de regresión

    Existen muchos fenómenos en la ciencia y en la ingeniería que son inherentemente no lineales por naturaleza y, cuando se conoce la estructura real, desde luego se debe hacer un intento para ajustar el modelo presente. La literatura sobre estimación por mínimos cuadrados de modelos no lineales es voluminosa. El estudiante que quiera una buena explicación de algunos aspectos de este tema debe consultar Classical and Modern Regression with Applications de Myers.

     

    Estimación de los coeficientes.

    En esta sección obtenemos los estimadores de mínimos cuadrados de los parámetros b 0 + b 0, b 1,…., b k mediante el ajuste del modelo de regresión lineal múltiple

     

    m Y|x1 , x2,……, xk = b 0 + b 1×1+ b 2×2+ b kxk

    a los puntos de datos

    i= 1,2,….,n y n >k },

    donde yi es la respuesta observada para los valores x1i, x2i,………, xki, de las k variables independientes x1 , x2,……, xk .Cada observación (x1i, x2i,……,xki, yi) satisface la ecuación

     

    yi = b 0 + b 1x1i +b 2x2i +….+ b kxki +e i

    o

    yi = b0 + b1x1i +b2x2i +….+ bkxki +ei,

    donde e i y ei son el error aleatorio y residual, respectivamente, asociados con la respuesta yi . Al utilizar el concepto de mínimos cuadrados para llegar a las estimaciones b0, b1,…, bk, minimizamos la expresión

     

    Al diferenciar SSE a su vez con respecto a b0,b1, b2,……,bk, e igualar a cero, generamos un conjunto de k + 1 ecuaciones normales

     

    Estas ecuaciones se pueden resolver para b0, b1,b2, …, bk mediante cualquier método apropiado para resolver sistemas de ecuaciones lineales.

    Ejemplo 1

    Se realizó un estudio sobre un camión de reparto ligero a diesel para ver si la humedad, temperatura del aire y presión barométrica influyen en la emisión de óxido nitroso (en ppm). Las mediciones de las emisiones se tomaron en diferentes momentos, con condiciones experimentales variantes. Los datos son los siguientes:

     

    Óxido

    nitroso, y

    Humedad x1

    Temperatura x2

    Presión x3

    Óxido nitroso y

    Humedad x1

    Temperatura x2

    Presión x3

    0,90

    72,4

    76,3

    29,18

    1,07

    23,2

    76,8

    29,38

    0,91

    41,6

    70,3

    29,35

    0,94

    47,4

    86,6

    29,35

    0,96

    34,3

    77,1

    29,24

    1,10

    31,5

    76,9

    29,63

    0,89

    35,1

    68,0

    29,27

    1,10

    10,6

    86,3

    29,56

    1,00

    10,7

    79,0

    29,78

    1,10

    11,2

    86,0

    29,48

    1,10

    12,9

    67,4

    29,39

    0,91

    73,3

    76,3

    29,40

    1,15

    8,3

    66,8

    29,69

    0,87

    75,4

    77,9

    29,28

    1,03

    20,1

    76,9

    29,48

    0,78

    96,6

    78,7

    29,29

    0,77

    72,2

    77,7

    29,09

    0,82

    107,4

    86,8

    29,03

    1,07

    24,0

    67,7

    29,60

    0,95

    54,9

    70,9

    29,37

     

    El modelo es:

    m Y|x1, x2, x3 = b 0 + b 1 x1 + b 2 x2 +……..+ b 3 x3

    Ajuste este modelo de regresión lineal múltiple a los datos dados y después estime la cantidad de óxido nitroso para las condiciones donde la humedad es 50%, la temperatura 76°F y la presión barométrica 29,30.

     

    SOLUCIÓN

    Para las ecuaciones normales encontramos que

    La solución de este conjunto de ecuaciones da las estimaciones únicas

    b0 = -3.507778, b1= -0.002625, b2= 0.000799, b3= 0.154155.

    Por tanto, la ecuación de regresión es

    Para 50% de humedad, una temperatura de 76 °F y una presión barométrica 29,30, la cantidad estimada de óxido nitroso es

    Regresión polinomial.

    Suponga ahora que deseamos ajustar la ecuación polinomial

    m Y|x = b 0 + b 1 x +b 2 x2+ ……..+ b r xr

    a los n pares de observaciones {(xi, yi); i = 1,2,…, n}. Cada observación, yi satisface la ecuación

    yi = b 0 + b 1xi +b 2xi2+ ……..+ b r xi2+e i

    o

    yi = b0 + b1xi +b2xi2+ ……..+ br xir+ei

    donde r es el grado del polinomio, y e i, y ei son de nuevo el error aleatorio y residual asociados con la respuesta yi. Aquí, el número de pares, n, debe ser al menos tan grande como r + 1, el número de parámetros a estimar. Nótese que el modelo polinomial se puede considerar como un caso especial del modelo de regresión lineal múltiple más general, donde hacemos x1 = x, x2 = x2, …, xr. = xr. Las ecuaciones normales toman la forma:

     

    que se resuelve como antes para b0, b1,………., br

     

    Ejemplo 2 Dados los datos

    x

    0

    1

    2

    3

    4

    5

    6

    7

    8

    9

    y

    9,1

    7,3

    3,2

    4,6

    4,8

    2,9

    5,7

    7,1

    8,8

    10,2

    Ajustar una curva de regresión de la forma

    m Y|x = b 0 + b 1 x +b 2 x2 y después estime m Y|x

     

    SOLUCIÓN:

     

    De los datos dados, encontramos que

     

    Al resolver las ecuaciones normales obtenemos

    b0=8,697 , b1=-2,341, b2= 0,288

    Por tanto:

     

    Inferencias en la regresión lineal múltiple.

    Una de las inferencias más útiles que se pueden hacer con respecto a la calidad de la respuesta pronosticada y0 que corresponde a los valores x10, x20,…., xk0, es el intervalo de confianza sobre la respuesta media m | x10, x20,…., xk0 . Nos interesa construir un intervalo de confianza sobre la respuesta media para el conjunto de condiciones dado por

    X’0 = [x10, x20,…., xk0]

    Aumentamos las condiciones sobre las x por el número 1 a fin de facilitar el uso de la notación matricial. Como en el caso k = 1 si hacemos la suposición adicional de que los errores son independientes y se distribuyen de forma normal, entonces las Bj son normales, con media, varianzas y convarianzas.

    también está normalmente distribuida y es, de hecho, un estimador insesgado para la respuesta media sobre el que intentamos unir los intervalos de confianza. La varianza de escrita en notación matricial simplemente como función de , (X'X)1, y el vector de condición x’0, es

    Si esta expresión se expande para un caso dado, digamos k = 2, se ve fácilmente que explica de manera apropiada las varianzas y covarianzas de las Bi. Después de reemplazar por s2, el intervalo de confianza de 100(1 — α)% sobre m | x10, x20,…., xk0 . se puede construir a partir de la estadística:

    que tiene una distribución t con n — k — 1 grados de libertad.

     

    Intervalo de confianza para:

    m | x10, x20,…., xk0

    Un intervalo de confianza de (1 — α)100% para la respuesta media m | x10, x20,…., xk0 es

    donde ta /2 es un valor de la distribución t con n-k grados de libertad.

    La cantidad a menudo se llama error estándar de predicción y por lo general aparece en el impreso de muchos paquetes de regresión para computadora.

     

    Ejemplo 1

    Con el uso de los datos del ejemplo 1 correspondiente al "Modelo de regresión lineal con el uso de matrices", construya un intervalo de confianza de 95% para la respuesta media cuando x1 = 3%, x2 = 8%, y x3 = 9%.

    SOLUCIÓN

    De la ecuación de regresión del ejemplo 1 correspondiente al "Modelo de regresión lineal con el uso de matrices", el porcentaje estimado de sobrevivencia cuando x1 = 3%, x2 = 8%, y x3 = 9% es

    A continuación encontramos que:

     

    Con el uso del cuadrado medio del error, s2 = 4.298 o s = 2.073, y de la tabla A.4, vemos que t0.025 = 2.262 para 9 grados de libertad. Por tanto, un intervalo de confianza de 95% para el porcentaje medio de sobrevivencia para x1 = 3%, x2 = 8%, y x3= 9% está dado por

    o simplemente

    .

    Como en el caso de la regresión lineal simple, necesitamos hacer una clara distinción entre el intervalo de confianza de la respuesta media y el intervalo de predicción sobre una respuesta observada. Esta última proporciona un límite dentro del cual podemos decir con un grado de certeza preestablecido que caerá una nueva respuesta observada.

    Un intervalo de predicción para una sola respuesta pronosticada se establece de nuevo al considerar las diferencias de la variable aleatoria .

    Se puede mostrar que la distribución muestral es normal con media

    y varianza

    De esta manera el intervalo de predicción de (1 — α)100% para un solo valor de predicción y0 se puede construir a partir de la estadística

    que tiene una distribución t con n – k – 1 grados de libertad.

     

    Intervalo de predicción para y0

    Un intervalo de predicción de (1-α)100% para una sola respuesta y0 está dado por:

    donde tα/2 es un valor de la distribución t con n – k –1 grados de libertad.

     

     

    Ejemplo 2

    Con el uso de los datos del ejemplo 1 correspondiente a el tema "Modelo de regresión lineal con el uso de matrices" construya un intervalo de predicción de 95% para una respuesta individual del porcentaje de sobrevivencia cuando x1 = 3%, x2 = 8%, y x3 = 9%.

    SOLUCIÓN:

    Con referencia a los resultados del ejemplo 1 de esta sección, encontramos que el intervalo de predicción de 95% para la respuesta y0 cuando x1= 3%, x2 = 8%, y x3 = 9% es

    que se reduce a . Nótese, como se espera, que el intervalo de predicción es considerablemente menos estrecho que el intervalo de confianza para el porcentaje de sobrevivencia media en el ejemplo 1.

    Un conocimiento de las distribuciones de los estimadores de los coeficientes individuales permite al experimentador construir intervalos de confianza para los coeficientes y probar hipótesis acerca de ellos.

    De esta manera podemos utilizar la estadística

    con n — k — 1 grados de libertad para probar las hipótesis y construir intervalos de confianza sobre βj. Por ejemplo, si deseamos probar:

     

    calculamos la estadística:

     

    y no rechazamos H0 si donde tiene n — k — 1 grados de libertad.

    Ejemplo 3

    Para el modelo del ejemplo 1 correspondiente al "Modelo de regresión lineal con el uso de matrices", pruebe la hipótesis de que β2 = -2,5 en el nivel de significancia 0.05 contra la alternativa de que β2> -2,5.

    SOLUCIÓN:

    Cálculos:

    Decisión : rechazar H0 y concluir que β2> -2,5

     

    PREDICCION.

    Existen varias razones para construir una regresión lineal. Una, por supuesto, es predecir valores de respuesta a uno o mas valores de la variable independiente. En este aparte nos enfocamos en los errores asociados con la predicción.

    La ecuación ŷ= a +bx se puede usar para predecir o estimar la respuesta media µyןxס en x = xo no es necesariamente uno de los valores preseleccionados, o se puede utilizar para predecir un solo valor ỵo de la variable Yo cuando x = xo. Esperaríamos que el error de predicción fuese mas alto en el caso de un solo valor predicho en el caso donde se predice una media. Esto, entonces, afectara el ancho de nuestros intervalos para valores que se predicen.

    Suponga que el experimentador desea construir un intervalo de confianza para µyןxס. Utilizaremos el estimador puntual Ŷo = A + Bxo para estimar µyןxס. = a + b c o se puede mostrar que la distribución muestral de Ŷo es normal con media:

    Y varianza:

    La ultima se sigue del hecho que Cov(Ŷ, B) = 0. De esta forma el intervalo de confianza de (1 – a )100% sobre la respuesta media µyןxס. Se puede construir a partir de la estadística :

     

    Que tiene una distribución t con n – 2 grados de libertad

     

    Intervalo de confianza para µyןxס.:

     

     

    CORRELACION.

    Hasta este punto hemos supuesto que la variable de regresión independiente x es una variable física o científica pero no una variable aleatoria. De hecho, en este contexto , x a menudo se llama variable matemática, que, en el proceso de muestreo, se mide con un error insignificante. En muchas aplicaciones de las técnicas de regresión es mas realista suponer que X y Y son variables aleatorias y que las mediciones {(Xi, Yi) ; i= 1, 2, …, n} son observaciones de una población que tiene la función de densidad conjunta f(x, y). Consideremos el problema de medir la relación entre las dos variables X y Y. Por ejemplo, si X y Y representan la longitud y circunferencia de una clase particular de hueso en el cuerpo de un adulto, podemos realizar un estudio antropológico para determinar si los valores grandes de X se asocian con valores grandes de Y, y viceversa. El análisis de correlación intenta medir la fuerza de tales relaciones entre dos variables por medio de un solo numero llamado coeficiente de correlación.

    En teoría a menudo se supone que la distribución condicional f(y½ x) de Y, para valores fijos de X, es normal con una media µyןx = a + b c o y varianza s ²yןx = s ² y X también se distribuye con normalmente con µx y varianza s ²x. La densidad conjunta de X y Y es entonces:

    Donde X es ahora una variable aleatoria independiente del error aleatorio E. Como la media del error aleatorio E es cero, se sigue que:

     

    Al sustituir para a y s ² en la expresión anterior para f( x, y), obtenemos la distribución normal bivariada:

     

    La constante r (rho) se llama coeficiente de correlación poblacional y juega un papel importante en muchos problemas de análisis de datos de dos variables. El valor de r es 0 cuando b = 0 , que resulta cuando en esencia no hay una regresión lineal; es decir, la línea de regresión es horizontal y cualquier conocimiento de X no es de utilidad para predecir Y. Como debemos tener s ²y ³ s ², y r ² £ 1 por ello -1£ r £ 1. Los valores de r = ± 1 solo ocurren cuando s ² = 0, en cuyo caso tenemos una relación lineal perfecta entre las dos variables. de esta manera un valor de r igual a +1 implica una relación lineal perfecta con una pendiente positiva, mientras que un valor de r igual a –1 resulta de una relación lineal perfecta con pendiente negativa. Se puede decir entonces que las estimaciones muéstrales de r cercanas a la unidad en magnitud implican una buena correlación o una asociación lineal entre X y Y, mientras que valores cercanos a cero indican poca o ninguna correlación.

    Se debe señalar que en estudios de correlación, como en problemas de regresión lineal, los resultados que se obtienen solo son tan buenos como el modelo que se supone. En las técnicas de correlación que aquí se estudian se supone una densidad normal bivariada para las variables X y Y, con el valor medio de Y en cada valor x linealmente relacionado con x. Para observar la conveniencia de la suposición de linealidad, a menudo es útil una graficación preliminar de los datos experimentales. Un valor del coeficiente de correlación muestral cercano a cero resultara de datos que muestren un efecto estrictamente aleatorio como se indica en la figura a :

    en donde se puede observar poca o ninguna relación causal. Es importante recordar que el coeficiente de correlación entre dos variables es una media de su relación lineal, y que un valor de r* = 0 implica una falta de linealidad y no una falta de asociación. Por ello, si existe una fuerte relación cuadrática entre X y Y como se indica en la figura b, podemos aun obtener una correlación cero que indique una relación no lineal.

    * formula del calculo de r

     

    BIBLIOGRAFÍA

    Casuso, Rafael L. "Cálculo de probabilidades e inferencia estadística", UCAB. Caracas. 1996.

    Mendenhall, Schaeffer y Wackely. "Estadística matemática con aplicaciones", Edit. Iberoamérica. México. 1986.

    Mendelhall, William y Sincich. "Probabilidad y estadística para ingeniería y ciencias", Edit. Prentice may. México. 1997.

    Miller, Irwin y otros. "Probabilidad y estadísticas para ingenieros", Edit. Prentice may. 4ta edición. México. 1992.

    Ross, Sheldon. "Probabilidad y estadísticas para ingeniería y ciencias", Edit. Mc Graw Hill. México. 2001.

    Universidad Simón Bolívar , Por: Hernando Sánchez Santibáñez

    http://www.usb.edu.co/facultades/administracion/publicaciones/regresion_correlacion.pdf

    WALPOLE, Myers y Myers (1998), "Probabilidad y Estadística para Ingenieros", Edit. Prentice Hall, México.

     

    Víctor José Mata.

    Alexander Sánchez.

    Caracas 27 de Mayo de 2004