Regresión y Correlación Lineal (página 2)

Partes: 1, 2

Por ejemplo, podemos preguntarnos si hay alguna relación entre las notas de la asignatura Estadística I y las de Matemáticas I. Una primera aproximación al problema consistiría en dibujar en el plano R2 un punto por cada alumno: la primera coordenada de cada punto sería su nota en estadística, mientras que la segunda sería su nota en matemáticas. Así, obtendríamos una nube de puntos la cual podría indicarnos visualmente la existencia o no de algún tipo de relación (lineal, parabólica, exponencial, etc.) entre ambas notas.

Otro ejemplo, consistiría en analizar la facturación de una empresa en un periodo de tiempo dado y de cómo influyen los gastos de promoción y publicidad en dicha facturación. Si consideramos un periodo de tiempo de 10 años, una posible representación sería situar un punto por cada año de forma que la primera coordenada de cada punto sería la cantidad en euros invertidos en publicidad, mientras que la segunda sería la cantidad en euros obtenidos de su facturación. De esta manera, obtendríamos una nube de puntos que nos indicaría el tipo de relación existente entre ambas variables. En particular, nos interesa cuantificar la intensidad de la relación lineal entre dos variables.

El parámetro que nos da tal cuantificación es el coeficiente de correlación lineal de Pearson r, cuyo valor oscila entre –1 y +1 :

edu.red

өendo Sx๠Syଡs desviaciones típicas de x e y. Este coeficiente es adimensional y siempre estará entre –1 y 1.

Si hay relación lineal positiva, rxy > 0 y próximo a 1.

Si hay relación lineal negativa rxy < 0 y próximo a –1.

Si no hay relación lineal rxy೥rá próximo a 0.

Nota: Cuando las variables x e y son independientes, Sxy཰, y por tanto rxy=0. Es decir, si dos variables son independientes su covarianza vale cero. No podemos asegurar lo mismo en sentido contrario. Si dos variables tienen covarianza cero, no podemos decir que son independientes. Sabemos que linealmente no tienen relación, pero podrían tener otro tipo de relación y no ser independientes.

Ejemplo:༯b>A partir de los siguientes datos, vamos a calcular la Covarianza y el coeficiente de correlación:༯font>

Altura		175	180	162	157	180	173	171	168	165	165
Peso		80	82	57	63	78	65	66	67	62	58

̯s cálculos que necesitamos:

Ahora se puede calcular el coeficiente de correlación lineal rxy๠el de determinación lineal R2

que nos indica que las variables están relacionadas.

El valor de r se aproxima a +1 cuando la correlación tiende a ser lineal directa (mayores valores de X significan mayores valores de Y), y se aproxima a –1 cuando la correlación tiende a ser lineal inversa. Es importante notar que la existencia de correlación entre variables no implica causalidad. ¡Atención!: si no hay correlación de ningún tipo entre dos v.a., entonces tampoco habrá correlación lineal, por lo que r = 0. Sin embargo, el que ocurra r = 0 sólo nos dice que no hay correlación lineal, pero puede que la haya de otro tipo. El siguiente diagrama resume el análisis del coeficiente de correlación entre dos variable:

Correlación negativa perfecta充充充宮ࠠ-1

Correlación negativa fuerte moderada débil充兠࠭0,5

Ninguna correlación充充充充兮ࠠ࠰

Correlación positiva moderada Fuerte充充宠ࠠ+0,5

Correlación positiva perfecta充充充宮.ࠠ+ 1

Pasos en el análisis de correlación y utilización e interpretación de las técnicas de correlación

Determinar cuál es la variable dependiente. Y: Costo.

Seleccionar una muestra de tamaño n de ambas variables X e Y, con lo que se obtienen n pares de observaciones (x1 , y1) , (x2 , y2)堨xn , yn).

En nuestro ejemplo se tomo una muestra de 20 apartamentos. Se midieron todas las variables independientes para cada uno de ellos.

Estos métodos se emplean para conocer las relaciones y significación entre series de datos

Cuando, simultáneamente, contemplamos dos variables continuas, aunque por extensión se pueden emplear para variables discretas cuantitativas, surgen preguntas y problemas específicos. Esencialmente, se emplearán estadísticos descriptivos y técnicas de estimación para contestar esas preguntas, y técnicas de contraste de hipótesis específicos para resolver dichos problemas. La mayoría de estos métodos están encuadrados en las técnicas regresión y correlación. En este artículo comentaremos las técnicas bivariantes lineales.

Si se parte de un modelo en el cual una de las dos variables continuas es dependiente o respuesta (y) y la otra es independiente o explicativa (x), surgen nuevos estadísticos para describir los datos.

La nube de puntos, o el diagrama de dispersión, resultante de la representación gráfica de los datos está "concentrada" en la recta de regresión de mejor ajuste obtenida por el método de mínimos cuadrados. Una condición previa, en las técnicas lineales, es que la nube de puntos debe tender a la linealidad (en sentido rectilíneo, se entiende). Los coeficientes de la regresión lineal, la ordenada en el origen (a) y la pendiente de la recta (b), son estadísticos muestrales. Se suelen presentar de la forma y䠽 a + bx.

La dispersión de los puntos alrededor de la recta de mejor ajuste es una característica de los datos bidimensionales que merece cuantificarse. El estadístico correspondiente es la desviación típica de los residuos. Es posible obtener la distribución de los residuos. Estos son las distancias en vertical de cada punto a la recta de regresión. Su medida es cero (esta propiedad es compartida por otras muchas rectas de ajuste, además de por la de mejor ajuste, que es la nuestra), y su desviación típica es el estadístico de elección para describir la dispersión alrededor de la recta. Sus unidades son las de la variable dependiente (y).

Es posible, que estudiando una variable bidimensional, no se desee establecer ninguna relación de subordinación de una variable con respecto a la otra. En este supuesto, se intenta cuantificar la asociación entre las dos características. Entramos en las técnicas de correlación lineal. Es posible definir otro estadístico muestral a partir del las dos pendientes teóricas de las dos posibles rectas de regresión (y) sobre(x) y de (x) sobre (y). Este estadístico es el coeficiente de correlación r. Su cuadrado r2 es el coeficiente de determinación y da una medida entre 0 y 1 de la cantidad de información compartida por dos características o variables continuas en los datos muestrales.

La magnitud de la asociación entre dos variables continuas está en relación con la dispersión de la nube de puntos. Se puede establecer una relación matemática perfecta entre la desviación típica de los residuos y el coeficiente de determinación.

El hecho de que dos variables estén correlacionadas, e incluso que lo estén con valores muy cercanos a 1, no implica que exista una relación de causalidad entre ellas. Se pueden producir correlaciones espurias (causales) entre dos variables, por estar ambas relacionadas con otra tercera variable continua y anterior en el tiempo.

Los nuevos estadísticos generados en la regresión y correlación lineal se emplean como estimadores de los correspondientes parámetros poblacionales. Para que los coeficientes de la regresión y correlación sean estimadores adecuados (centrados y de mínima varianza) de sus correspondientes parámetros poblacionales, es necesario que se asuman ciertas condiciones en la población de origen, referidas fundamentalmente a las distribuciones de los residuos

Se define la༢>covarianza༯b>de la siguiente forma:

༯font>

өn embargo, esta fórmula resulta complicada de aplicar. Podemos desarrollar el numerador y llegar a la siguiente fórmula, mucho más fácil para trabajar con ella:

༯font>

hora ya si estamos en condiciones de definir el siguiente coeficiente.

༢>Coeficiente de correlación lineal de Pearson. Se define este coeficiente como el cociente entre la covarianza y el producto de las desviaciones típicas de ambas variables, es decir:

༯font>

edu.red

༯font>

ųte coeficiente tomará siempre valores comprendidos entre -1 y 1. Según los valores que tome, podremos deducir que:༯font>

Si r=1, existe dependencia funcional, todos los puntos del diagrama de dispersión están situados en una línea recta creciente.༯font>

Si 0Si r=0, no existe correlación lineal, pero puede existir correlación curvilínea.

༯font>Si -1Si r=-1, existe dependencia funcional, todos los puntos del diagrama de dispersión están situados en una línea recta decreciente.

Funciones y Correlación …correlación es el que se refiere a la existencia de correlación lineal la cual se presenta cuando los puntos del grafico de las variables objeto de análisis se distribuyen alrededor de una recta. en ese sentido hablamos de correlación lineal fuerte cuando la nube de puntos graficados se parece mucho a una recta y la correlación lineal será cada vez más débil (o menos fuerte) cuando la nube de puntos vaya alejándose cada vez más de la recta. la cuantificación del grado de correlación lineal entre dos variables se hace a través del coeficiente de correlación el cual se es denotado con la letra r, el cual nos permite ver si la correlación lineal entre dos variables es fuerte o débil y positiva o negativa. el valor de r adopta valores entre -1 y 1 (es decir -1 < r < 1), indicando los valores cercanos a -1 y 1 la existencia de una fuerte correlación negativa y positiva respectivamente, mientras que los valores que se acerca a 0 indican una correlación cada vez más débil y el valor de 0 para el coeficiente de correlación indica la no existencia de correlación (o correlación nula entre las variables). Mientras el coeficiente de correlación se aproxima a los valores 1 y -1 la aproximación a una correlación se considera buena. Cuando mas se aleja de 1 o de -1 y se acerca a cero se tiene menos confianza en la relación lineal entre las variables por lo que una aproximación lineal no será apropiada. Sin embargo no significa que no existe relación entre las variables, lo único que podemos decir es que la relación no es lineal. Sin embargo, es importante tener presente que la existencia de correlación no implica causalidad en el sentido que la correlación indica que existe una relación entre las variables pero no nos indica que una variable cause a la otra. el concepto de causalidad es importante en economía pues es precisamente a través de la causalidad que se puede inferir el comportamiento de una variable a partir del comportamiento de otra y nos permite la identificación de las variables de control para la realización de políticas económicas. por lo tanto, el objetivo del análisis de causalidad es explicar el funcionamiento de un sistema a partir de las relaciones causales del mismo, considerando que para el establecimiento de tales relaciones se requiere de construcciones teóricas, es decir, detrás de toda relación causal debe haber una teoría

Regresión y correlación lineal

La regresión como una técnica estadística, una de ellas la regresión lineal simple y la regresión multifactorial, analiza la relación de dos o más variables continuas, cuando analiza las dos variables a esta se le conoce como variable bivariantes que pueden corresponder a variables cualitativas, la regresión nos permite el cambio en una de las variables llamadas respuesta y que corresponde a otra conocida como variable explicativa, la regresión es una técnica utilizada para inferir datos a partir de otros y hallar una respuesta de lo que puede suceder.

Siendo así la regresión una técnica estadística, por lo tanto para interpretar situaciones reales, pero a veces se manipula de mala manera por lo que es necesario realizar una selección adecuada de las variables que van a construir las formulas matemática, que representen a la regresión, por eso hay que tomar en cuenta variables que tiene relación, de lo contraria se estaría matematizando un galimatías.

Se pueden encontrar varios tipos de regresión, por ejemplo:

Regresión lineal simple

Regresión múltiple ( varias variables)

1. Simple
2. Múltiple, etc.

Regresión logística

La regresión lineal técnica que usa variables aleatorias, continuas se diferencia del otro método analítica que es la correlación, por que esta última no distingue entre las variables respuesta y la variable explicativa por que las trata en forma simétrica.

La mate matización nos da ecuaciones para manipular los datos, como por ejemplo medir la circunferencia de los niños y niñas y que parece incrementarse entre las edades de 2 meses y 18 años, aquí podemos inferir o predecir que las circunferencias del cráneo cambiara con la edad, en este ejercicio la circunferencia de la cabeza es la respuesta y la edad la variable explicativa.

En la regresión tenemos ecuaciones que nos representan las diferentes clases de regresión:

Regresión Lineal: y = A + Bx

Regresión Logarítmica: y = A + BLn(x)

Regresión Exponencial: y = Ac(bx)

Regresión Cuadrática: y = A + Bx +Cx2

edu.red

+2 SD (98%)

Media (50%)

-2 SD (2%)

Para obtener un modelo de regresión es suficiente establecer la regresión para eso se hace uso del coeficiente de correlación: R.

R = Coeficiente de correlación, este método mide el grado de relación existente entre dos variables, el valor de R varía de -1 a 1, pero en la práctica se traba con un valor absoluto de R.

El valor del coeficiente de relación se interpreta de modo que a media que R se aproxima a 1, es más grande la relación entre los datos, por lo tanto R (coeficiente de correlación) mide la aproximación entre las variables.

El coeficiente de correlación se puede clasificar de la siguiente manera:

CORRELACIÒN VALOR O RANGO

1) Perfecta 1) R = 1

2) Excelente 2) R = 0.9 < = R < 1

3) Buena 3) R = 0.8 < = R < 0.9

4) Regular 4) R = 0.5 < = R < 0.8

5) Mala 5) R < 0.5

Distribución divariante

La distribución diváriate es cuando se estudia en una población dos variables, que forman pares correspondientes a cada individuo, como por Ejm:

Las notas de 10 alumnos en biología y lenguaje

BIOLOGIA			2		4		5		5		6		6		7		7		8		9
LENGUAJE			2		2		5		5		5		7		5		8		7		10

Los pares de valores son: ( 2, 2) (4,2) (5,5)兮(8,7) (9,10) forman una distribución diváriate.

La correlación, método por el cual se relacionan dos variables se pude graficar con un diagrama de dispersión de puntos, a la cual muchos autores le llaman nubes de puntos, encuadrado dentro de un gráfico de coordenadas X Y en la cual se pude trazar una recta y cuyos puntos mas cercanos de una recta hablaran de una correlación mas fuerte, ha esta recta se le denomina recta de regresión, que puede ser positiva o negativa, la primera contundencia a aumentar y la segunda en descenso o decreciente.

También se puede describir un diagrama de dispersión en coordenadas cartesianas valores como en la distribución diváriate, en donde la nube de puntos representa los pares de valores.

GRAFICOS DE RECTA DE REGRESIÒN

edu.red

Por último se pueden graficar las líneas de tendencia, herramienta muy útil para el mercadeo por que es utilizada para evaluar la resistencia que proyectan los precios. Cuando una línea de tendencia central se rompe ya sea con tendencia al alza o en la baja es porque ocurre un cambio en los precios, por lo tanto las líneas de tendencia pueden ser alcista cuando se unen los puntos sucesivos y bajista cuando se unen los puntos máximos.

También existen gráficos que representan la dispersión de datos dentro de las coordenadas cartesianas, ósea las nubes de puntos y que pueden darse según la relaciòn que representa, que puede ser lineal, exponencial y sin relación, esta última cuando los puntos están dispersos en todo el cuadro sin agruparse lo cual sugiere que no hay relación.

LOS GRÁFICOS SIGUIENTES NOS MUESTRAN ESTA RELACIÓN:

Relación líneas:

edu.red

Relación Exponencial:

edu.red

Sin Relación

edu.red

Matemáticamente las ecuaciones serían:

Ajuste Lineal : Y = Bx + A

Ajuste Logarìtmico : Y =BLnX + A

Ajuste Exponencial : Y = AC BX

En el modelo de regresión lineal simple se utiliza la técnica de estimación de los mínimos cuadrados, este modelo tiene solo una variable de predicción y se supone una ecuación de regresión lineal.

En el siguiente ejemplo la relación entre la calificación y salario la variable repuesta es el salario inicial y la variable predictiva o de predicción es la calificación promedia, si se desea determinar una ecuación de regresión para el salario inicial promedio como una función de la calificación promedio se podrá graficar y procesar los datos en una computadora, estos datos son:

CP = Calificación Promedio

SI = Salario Inicial

De este grupo de datos se obtiene el siguiente gráfico de dispersión

Regresión simple y correlación

La Regresión y la correlación son dos técnicas estadísticas que se pueden utilizar para solucionar problemas comunes en los negocios.

Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación Funcional entre dos o más variables, donde una variable depende de la otra variable.

Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresión Simple.

"Y es una función de X" Y = f(X)

Como Y depende de X,

Y es la variable dependiente, y

X es la variable independiente.

En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la variable independiente.

En el Modelo de Regresión Simple se establece que Y es una función de sólo una variable independiente, razón por la cual se le denomina también Regresión Divariada porque sólo hay dos variables, una dependiente y otra independiente y se representa así:

Y = f (X) "Y está regresando por X"

La variable dependiente es la variable que se desea explicar, predecir. También se le llama regresando ó variable de respuesta.

La variable Independiente X se le denomina variable explicativa ó regresor y se le utiliza para explicar y.

ANÁLISIS ESTADÍSTICO: REGRESIÓN LINEAL SIMPLE

En el estudio de la relación funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de predicción y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notación:

Y = a + b X + e

Donde:

a es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y.

b es el coeficiente de regresión poblacional (pendiente de la línea recta)

e es el error

SUPOSICIONES DE LA REGRESIÓN LINEAL

Los valores de la variable independiente X son fijos, medidos sin error.

La variable Y es aleatoria

Para cada valor de X, existe una distribución normal de valores de Y (subpoblaciones Y)

Las variancias de las subpoblaciones Y son todas iguales.

Todas las medias de las subpoblaciones de Y están sobre la recta.

Los valores de Y están normalmente distribuidos y son estadísticamente independientes.

Estimación de la ecuación de regresión muestral

Consiste en determinar los valores de "a" y "b " a partir de la muestra, es decir, encontrar los valores de a y b con los datos observados de la muestra. El método de estimación es el de Mínimos Cuadrados, mediante el cual se obtiene:

edu.red

Que se interpreta como:

a es el estimador de a

Es el valor estimado de la variable Y cuando la variable X = 0

b es el estimador de b , es el coeficiente de regresión

Está expresado en las mismas unidades de Y por cada unidad de X. Indica el número de unidades en que varía Y cuando se produce un cambio, en una unidad, en X (pendiente de la recta de regresión).

Un valor negativo de b sería interpretado como la magnitud del decremento en Y por cada unidad de aumento en X.

Podemos clasificar los tipos de regresión según diversos criterios.

En primer lugar, en función del número de variables independientes:

Regresión simple: Cuando la variable Y depende únicamente de una única variable X.
Regresión múltiple: Cuando la variable Y depende de varias variables (X1, X2, …, Xr)

En segundo lugar, en función del tipo de función f(X):

Regresión lineal: Cuando f(X) es una función lineal.
Regresión no lineal: Cuando f(X) no es una función lineal.

En tercer lugar, en función de la naturaleza de la relación que exista entre las dos variables:

La variable X puede ser la causa del valor de la variable Y.

Por ejemplo, en toxicología, si࠘ = Dosis de la droga e Y = Mortalidad, la mortalidad se atribuye a la dosis administrada y no a otras causas.

Puede haber simplemente relación entre las dos variables.

Por ejemplo, en un estudio de medicina en que se estudian las variables X = Peso e Y = Altura de un grupo de individuos, puede haber relación entre las dos, aunque difícilmente una pueda considerarse causa de la otra.

En este tema se tratará únicamente de la Regresión lineal simple.

Ejemplo de regresión lineal

MODELO DE REGRESION LINEAL

El modelo lineal relaciona laඡriable dependiente༥m>Y༯em>con༥m>K༯em>variables explicativas༥m>Xkਫ = 1,…K), o cualquierലansformaciónथ éstas, que generan unਦiacute;per planoथడrámetros߫ desconocidos:

edu.red

SEPUESTOS DEL MODELO DE REGRESIÓN LINEAL

Para poder crear un modelo de regresión lineal, es necesario que se cumpla con los siguientes supuestos:5

La relación entre las variables es lineal.
Los errores son independientes.
Los errores tienen varianza constante.
Los errores tienen una esperanza matemática igual a cero.
El error total es la suma de todos los errores.

TIPOS MODELO DE REGRESIÓN LINEAL

Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros:

1) Regresión lineal simple

Sólo se maneja unaඡriable independiente, por lo que sólo cuenta con dosడrámetros. Son de la forma:6

edu.red

2) Análisis

Dado el modelo de regresión simple, si se calcula laॳperanzaਸ਼alor esperado) del valor༥m>Y, se obtiene

edu.red

Obteniendo dos ecuaciones denominadasॣuaciones normales౵e generan la siguiente೯luciónడra ambos parámetros:6

edu.red

La interpretación del parámetro beta 2 es que un incremento en Xi de una unidad, Yi incrementará en beta 2

3) Regresión lineal múltiple

Maneja variasඡriables independientes. Cuenta con varios parámetros. Se expresan de la forma:8

edu.red

Rectas de Regresion

Las rectas de regresión son lasಥctas౵e mejor se ajustan a la nube de puntos (o también llamadoऩagrama de dispersión) generada por unaऩstribución binomial. Matemáticamente, son posibles dos rectas de máximo ajuste:9

La recta de regresión de༥m>Y༯em>sobre༥m>X:

edu.red

La recta de regresión de༥m>X༯em>sobre༥m>Y:

edu.red

La࣯rrelaciónਦquot;r") de las rectas determinará la calidad del ajuste. Si༥m>r༯em>es cercano o igual a 1, el ajuste será bueno; si༥m>r༯em>es cercano o igual a 0, se tratará de un ajuste malo. Ambas rectas de regresión se intersecan en un punto llamado centro de gravedad de laऩstribución.

Aplicaciones de la regresión lineal

Líneas de tendencia

Tendencia

Una línea de tendencia representa una tendencia en una serie de datos obtenidos a través de un largo período. Este tipo de líneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el PBI, el precio del petróleo o el valor de las acciones) han aumentado o decrementado en un determinado período.10 Se puede dibujar una línea de tendencia a simple vista fácilmente a partir de un grupo de puntos, pero su posición y pendiente se calcula de manera más precisa utilizando técnicas estadísticas como las regresiones lineales. Las líneas de tendencia son generalmente líneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la línea.

Medicina

En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco11 vinieron de estudios que utilizaban la regresión lineal. Los investigadores incluyen una gran cantidad de variables en su análisis de regresión en un esfuerzo por eliminar factores que pudieran producir correlaciones espurias. En el caso del tabaquismo, los investigadores incluyeron el estado socio-económico para asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de su educación o posición económica. No obstante, es imposible incluir todas las variables posibles en un estudio de regresión.12 13 En el ejemplo del tabaquismo, un hipotético gen podría aumentar la mortalidad y aumentar la propensión a adquirir enfermedades relacionadas con el consumo de tabaco. Por esta razón, en la actualidad las pruebas controladas aleatorias son consideradas mucho más confiables que los análisis de regresión.

TIPOS DE CORRELACIÓN

Cada conjunto de correlaciones se basa en unഩpo de correlación, que no es más que una lista de propiedades. Éstas pueden ser propiedades de datos, que se encuentran en el propio mensaje, o propiedades de contexto, que describen detalles del sistema o de mensajes no relacionados con los datos transmitidos en el mensaje.

Puede usar un tipo de correlación en más de un conjunto de correlaciones. Si necesita establecer correlaciones entre distintos valores para las propiedades de un tipo de correlación, deberá crear un conjunto de correlaciones nuevo: cada uno de ellos se puede inicializar una sola vez.

Puede promocionar las propiedades de un esquema de propiedades para declarar que algunas de las propiedades de un mensaje están accesibles para la orquestación. Para obtener más información, veaвomocionar propiedades.

TIPOS DE CORRELACIÓN

1ºïrrelación directa

La correlación directa se da cuando al aumentar una de las variables la otra aumenta.

La recta correspondiente a la nube de puntos de la distribución es una recta creciente.

edu.red

2ºïrrelación inversa

La correlación inversa se da cuando al aumentar una de las variables la otra disminuye.

La recta correspondiente a la nube de puntos de la distribución es una recta decreciente.

edu.red

3ºïrrelación nula

La correlación nula se da cuando no hay dependencia de ningún tipo entre las variables.

En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada.

edu.red

GRADO DE CORRELACIÓN

El৲ado de correlación੮dica la proximidad que hay entre los puntos de la nube de puntos. Se pueden dar tres tipos:

1.ïrrelación fuerte

La correlación será fuerte cuanto más cerca estén los puntos de la recta.

edu.red

2.ïrrelación débil

La correlación será débil cuanto más separados estén los puntos de la recta.

edu.red

3.ïrrelación nula

El࣯eficiente de correlación linealॳ el cociente entre la࣯varianza๠el producto de lasथsviaciones típicasथ ambas variables.

El࣯eficiente de correlación lineal೥ expresa mediante la letraಮ

edu.red

Propiedades del coeficiente de correlación

1.Ŭ࣯eficiente de correlaciónய varía al hacerlo la escala de medición.

Es decir, si expresamos la altura en metros o en centímetros el coeficiente de correlación no varía.

2.Ŭ signo del࣯eficiente de correlaciónॳ el mismo que el de la࣯varianza.

Si la covarianza es positiva, la correlación es directa.

Si la covarianza es negativa, la correlación es inversa.

Si la covarianza es nula, no existe correlación.

3. El࣯eficiente de correlación linealॳ un número real comprendido entre -1 y 1.

-1 = r = 1

4.ө el࣯eficiente de correlación linealയma valores cercanos a -1 la correlación es঵erte e inversa, y será tanto más fuerte cuanto más se aproxime r a -1.

5.ө el࣯eficiente de correlación linealയma valores cercanos a 1 la correlación es঵erte y directa, y será tanto más fuerte cuanto más se aproxime r a 1.

6.ө el࣯eficiente de correlación linealയma valores cercanos a 0, la correlación esदeacute;bil.

7.ө r = 1 ó -1, los puntos de la nube están sobre la recta creciente o decreciente. Entre ambas variables hay dependencia funcional.

Ejemplos: Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes:

Matemáticas							2	3	4	4	5	6	6	7	7	8	10		10
Física							1	3	2	4	4	4	6	4	6	7	9		10

Hallar el࣯eficiente de correlaciónथ la distribución e interpretarlo.

xi	yi	xi෹i	xi2	yi2
2	1	2	4	1
3	3	9	9	9
4	2	8	16	4
4	4	16	16	16
5	4	20	25	16
6	4	24	36	16
6	6	36	36	36
7	4	28	49	16
7	6	42	49	36
8	7	56	64	49
10	9	90	100	81
10	10	100	100	100
72	60	431	504	380

1ºȡllamos las୥dias aritméticas.

edu.red

2ºálculamos la࣯varianza.

edu.red

3ºálculamos lasथsviaciones típicas.

edu.red

4ºplicamos la fórmula del࣯eficiente de correlación lineal.

edu.red

Al ser el࣯eficiente de correlaciónయsitivo, la correlación es directa.

Como࣯eficiente de correlaciónॳtá muy próximo a 1 la correlación es muy fuerte.

Los valores de dos variables X e Y se distribuyen según la tabla siguiente:

Y/X	0	2	4
1	2	1	3
2	1	4	2
3	2	5	0

Determinar el࣯eficiente de correlación.

Convertimos la tabla de doble entrada en tabla simple.

xi	yi	fi	xi෠fi	xi2෠fi	yi෠fi	yi2෠fi	xi෠yi෠fi
0	1	2	0	0	2	2	0
0	2	1	0	0	2	4	0
0	3	2	0	0	6	18	0
2	1	1	2	4	1	1	2
2	2	4	8	16	8	16	16
2	3	5	10	20	15	45	30
4	1	3	12	48	3	3	12
4	2	2	8	32	4	8	16
༯font>	༯font>	20	40	120	41	97	76

edu.red

Al ser el࣯eficiente de correlación஥gativo, la correlación es inversa.

Como࣯eficiente de correlaciónॳtá muy próximo a 0 la correlación es muy débil.

Laಥcta de regresiónॳ la que mejor se ajusta a laவbe de puntos.

Laಥcta de regresiónడsa por el punto (X y Y)ࠬlamadoࣥntro de gravedad.

Recta de regresión de Y sobre X

La recta de regresión de Y sobre X se utiliza para estimar los valores de la Y a partir de los de la X.

Laథndienteथ la recta es el cociente entre la covarianza y la varianza de la variable X.

edu.red

Recta de regresión de X sobre Y

Laಥcta de regresiónथ X sobre Y se utiliza para estimar los valores de la X a partir de los de la Y.

Laథndienteथ la recta es el cociente entre la covarianza y la varianza de la variable Y.

edu.red

Si la correlación es nula, r = 0, las rectas de regresión son perpendiculares entre sí, y sus eucaciones son:

y =༩mg src="image038.png" alt="Monografias.com" />

x =༩mg src="image039.png" alt="Monografias.com" />

Ejemplo:Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes:

Matemáticas							2	3	4	4	5	6	6	7	7	8	10		10
Física							1	3	2	4	4	4	6	4	6	7	9		10

Hallar lasಥctas de regresión๠representarlas.

xi	yi	xi෹i	xi2	yi2
2	1	2	4	1
3	3	9	9	9
4	2	8	16	4
4	4	16	16	16
5	4	20	25	16
6	4	24	36	16
6	6	36	36	36
7	4	28	49	16
7	6	42	49	36
8	7	56	64	49
10	9	90	100	81
10	10	100	100	100
72	60	431	504	380

1ºȡllamos las୥dias ariméticas.

edu.red

2ºálculamos la࣯varianza.

edu.red

3ºálculamos lasඡrianzas.

edu.red

4ºRecta de regresión de Y sobre X.

edu.red

4ºRecta de regresión de X sobre Y.

edu.red

Ejercicios regresión y correlación lineal resueltos

Una compañía de seguros considera que el número de vehículos (y) que circulan por una determinada autopista a más de 120 km/h , puede ponerse en función del número de accidentes (x) que ocurren en ella. Durante 5 días obtuvo los siguientes resultados:

Accidentes xi				5	7	2	1	9
Número de vehículos yi				15	18	10	8	20

࠼/font>

Calcula el coeficiente de correlación lineal.堠Si ayer se produjeron 6 accidentes, ¿cuántos vehículos podemos suponer que circulaban por la autopista a más de 120 km / h?堠¿Es buena la predicción?

Construimos una tabla, teniendo en cuenta que la frecuencia absoluta es uno. Debemos conocer la media aritmética de las dos variables, las varianzas, las desviaciones típicas y la covarianza.

༯font>	༯font>	Media aritmética		Varianza			Covarianza
༯font>	fi	xi	yi	xi2	yi2	xi . yi
༯font>	1	5	15	25	225	75
༯font>	1	7	18	49	324	126
༯font>	1	2	10	4	100	20
༯font>	1	1	8	1	64	8
༯font>	1	9	20	81	400	180
	5	24	71	160	1113	409

༯font>

edu.red

EJERCICIOS REGRESION Y CORRELACION LINEAL RESUELTOS

Correlación y regresión

El número de españoles (en millones) ocupados en la agricultura, para los años que se indican, era:

Año		1980	1982	1984	1986	1988	1990	1992	1994
Ocupados		2,1	2,04	1,96	1,74	1,69	1,49	1,25	1,16

a) ¿Podría explicarse su evolución mediante una recta de regresión?

b) ¿Qué limitaciones tendrían las estimaciones hechas por esa recta?

[sol] a) Si; b) No vale para hacer estimaciones alejadas de los años considerados.

2. Asocia las rectas de regresión y = –x +16, y = 2x – 12, y = 0,5x + 5 a las nubes de puntos siguientes:

edu.red

3. Asigna los coeficientes de correlación lineal r = 0,4, r = –0,85 y r = 0,7, a las nubes del problema anterior.

[sol] a) Respectivamente: (c), (b), (a). b) Respectivamente: (a), (b), (c)

Tipo II. Cálculo de la correlación y regresión

4. [S] a) Calcula la recta de regresión de Y sobre X en la distribución siguiente realizando todos los cálculos intermedios.

X	10	7	5	3	0
Y	2	4	6	8	10

b) ¿Cuál es el valor que correspondería según dicha recta a X = 7?

[sol] a) y = –0,8276x +10,138; b) 4,3448.

5. [S] El número de bacterias por unidad de volumen, presentes en un cultivo después de un cierto número de horas, viene expresado en la siguiente tabla:

X: Nº de horas				0	1	2	3	4	5
Y: Nº de bacterias				12	19	23	34	56	62

Calcula:

a) Las medias y desviaciones típicas de las variables, número de horas y número de bacterias.
b) La covarianza de la variable bidimensional.
c) El coeficiente de correlación e interpretación.
d) La recta de regresión de Y sobre X.

6. La tabla siguiente muestra las notas obtenidas por 8 alumnos en un examen, las horas de estudio dedicadas a su preparación y las horas que vieron la televisión los días previos al examen.

Nota	5	6	7	3	5	8	4	9
Horas de estudio	7	10	9	4	8	10	5	14
Horas de TV	7	6	2	11	9	3	9	5

a) Representa gráficamente los diagramas correspondientes a nota-estudio y nota-TV.

b) ¿Se observa correlación entre las variables estudiadas? ¿De qué tipo? ¿En qué caso estimas que es más fuerte?

[sol] b) Sí. Directa; inversa.

7. Con los datos del problema anterior, halla el coeficiente de correlación de nota-estudio y nota-TV. ¿Qué puede deducirse con más precisión conociendo la nota que obtuvo una persona en el examen: el tiempo que dedicó al estudio o el que dedicó a ver la televisión?

[sol] 0,943382 y (0,846283. El tiempo que dedicó al estudio.

8. Con los mismos datos, halla las rectas de regresión correspondientes y estima para un alumno que sacó un 2 en el examen:

a) Las horas que estudió.

b) Las horas que vio la TV.

[sol] a) Est = (0,246753 + 1,46753 砎ota; 2,7 h. b) TV = 14,1299 ( 1,2987 砎ota; 11,5 h.

Tipo III. Estimación a partir del a recta de regresión

9. La altura, en cm, de 8 padres y del mayor de sus hijos varones, son:

Padre		170	173	178	167	171	169	184	175
Hijo		172	177	175	170	178	169	180	187

a) Calcula la recta de regresión que permita estimar la altura de los hijos dependiendo de la del padre; y la del padre conociendo la del hijo.

b) ¿Qué altura cabría esperar para un hijo si su padre mide 174? ¿Y para un padre, si su hijo mide 190 cm?

[sol] a) H = 68,1853 + 0,621859 砐; P = 77,4406 + 0,545082 砈. b) 176,4 cm; 181 cm.

10. [S] Durante su primer año de vida han pesado a Marta cada mes. En la tabla siguiente se dan sus pesos:

x	1		2		3		4		5		6		7		8		9		10		11	12
y	3,2		3,7		4,2		5,3		5,7		6,5		6,8		7,2		7,9		7,7		8	8,5

En esta tabla, x representa la edad en meses e y el peso en kilogramos.

a) Calcula la media y la desviación típica de los pesos.
b) Determina la ecuación de la recta de regresión de y sobre x, explicando detalladamente los cálculos que haces y las fórmulas que utilizas.

[sol] a) 6,225; 1,7181 b) y = 0,48706x + 3,05909

11. [S] Utilizando la recta de regresión de x sobre y correspondiente a la distribución siguiente:

x = altura sobre el nivel del mar						0	184	231	481	911
y = temperatura media en ºC						20	18	17	12	10

Calcula la altitud de una ciudad en la que la temperatura media es de 15º.

[sol] 392,7 m.

CONCLUSION

Regresión y correlación lineal son dos herramientas para investigar la dependencia de una variable dependiente y en función de una variable independiente x. y = f(x)

y = variable dependiente que se desea explicar o predecir, también se llama regresor o respuesta

x = variable independiente, también se llama variable explicativa, regresor o predictor

Regresión lineal – la relación entre x y y se representa por medio de una línea recta

Regresión curvilinea – la relación entre x y y se representa por medio de una curva.

Conclusión

Las técnicas de regresión y correlación cuantifican la asociación estadística entre dos o más variables. La regresión lineal simple expresa la relación entre una variable dependiente Y y una variable independiente X, en términos de la pendiente y la intersección de la línea que mejor se ajuste a las variables.

La correlación simple expresa el grado o la cercanía de la relación entre las dos variables en términos de un coeficiente de correlación que proporciona una medida indirecta de la variabilidad de los puntos alrededor de la mejor línea de ajuste- Ni la regresión ni la correlación dan pruebas de relaciones causa – efecto.