Trabajo de estadística

Prueba de Hipótesis
Regresión y correlación

Prueba de Hipótesis

La prueba de hipótesis es un procedimiento estadístico que comienza con una suposición Que se hace con respecto a un parámetro de población, luego se recolectan datos de muestra, se producen estadísticas de muestra y se usa esta información para decidir qué tan probable es que sean correctas nuestras suposiciones acerca del parámetro de población en estudio.

Ejemplos de hipótesis pueden ser: Se desea

a) Probar si las ventas diaria de un abasto son 1 Mio de bolívares o no

b) Probar si la proporción de individuos que compran algún artículo en una tienda es o no mayor del 0.3.

1.1.- Objetivo de la prueba de hipótesis.

Decidir, basado en una muestra de una población, cuál de dos hipótesis complementarias es cierta.

Las dos hipótesis complementarias se denominan hipótesis nula e hipótesis alternativa.

1.2.- Conceptos Básicos.

Hipótesis Nula (H0): Representa la hipótesis que mantendremos cierta a no ser que los datos indiquen su falsedad. Esta hipótesis nunca se considera aceptada, en realidad lo que se quiere decir es que no hay suficiente evidencia estadística para rechazarla por lo que aceptar H0 no garantiza que H0 sea cierta.
Hipótesis Alternativa (H1): Hipótesis que se acepta cuando los datos no respaldan la hipótesis nula.

1.3.- Tipos de pruebas.

a) Pruebas de hipótesis de 2 extremos o bilaterales: Es una prueba en la que H0 se rechaza si el valor de la muestra es significativamente mayor o menor que el valor hipotetizado del parámetro de población. Esta prueba involucra dos regiones de rechazo.
b) Pruebas de hipótesis de 1 extremo o unilaterales: Es una prueba en la que sólo hay una región de rechazo, es decir, sólo nos interesa si el valor observado se desvía del valor hipotetizado en una dirección. Pueden ser:

Prueba de extremo inferior

Es una prueba en la que si hay un valor de muestra que se encuentra Significativamente por debajo del valor de la población hipotetizado, nos llevará a rechazar la hipótesis nula. Gráficamente:

edu.red

Prueba de extremo superior

Es una prueba en la que si hay un valor de muestra que se encuentra Significativamente por encima del valor de la población hipotetizado, nos llevará a rechazar la hipótesis nula. Gráficamente:

edu.red

1.4.- Metodología.

La lógica de una prueba de hipótesis es similar a la de un juicio penal, donde debe decidirse si el acusado es inocente o culpable y el juicio consiste en aportar evidencia para rechazar la hipótesis de inocencia más allá de cualquier duda razonable. Por su parte una prueba de hipótesis analiza si los datos observados permitan rechazar la hipótesis nula, comprobando si éstos tienen una probabilidad de aparecer lo suficientemente pequeña cuando es cierta la hipótesis nula.

Las etapas de una prueba de hipótesis son:

Definir la hipótesis nula a contrastar.
Definir una medida de discrepancia entre los datos muéstrales y la hipótesis Ho.

Supongamos que el parámetro de interés es la media de una población y que a partir de una muestra hemos obtenido su estimador x, entonces debemos medir de alguna manera la discrepancia entre ambos, que denotaremos como d (m, x).

Decidir qué discrepancia consideramos inadmisibles con Ho, es decir, a partir de que valor de d, la discrepancia es muy grande como para atribuirse al azar y considerar que Ho pueda ser cierta. Para ello debemos entonces:
Tomar la muestra
Calcular el estimador del parámetro, en nuestro ejemplo x
Calcular la medida de discrepancia d.
Tomar la decisión: Si d es "pequeña", aceptar Ho, si es lo "suficientemente "grande, rechazarla y aceptar H1.

Es por ello que necesitamos establecer una Regla de Decisión mediante la cual sea especificada:

a) La medida de discrepancia.

b) Un criterio que nos permita juzgar qué discrepancia son "demasiado grandes".

1.5.- Nivel de Significancia.

Para realizar una prueba de hipótesis dividiremos el rango de discrepancias que puede Observarse cuando Ho es cierta en dos regiones: una región de aceptación de Ho y otra de rechazo.

Se consideran discrepancias "demasiado grandes", las que tienen una probabilidad Pequeña a de ocurrir si Ho es cierta. A este valor lo llamamos nivel de significación: Generalmente tomamos valores de 0.1, 0.05, 0.01 o 0,005.

El nivel de significación a puede interpretarse también como la probabilidad que Estamos dispuestos a asumir de rechazar Ho cuando esta es cierta.

Cabe destacar que mientras más alto sea el nivel de significancia que se utiliza para Probar una hipótesis, mayor será la probabilidad de rechazar una hipótesis nula cuando es cierta.

En la siguiente figura se muestran tres niveles de significancia distintos:

edu.red

1.6.- Tipos de errores.

Cuando se decide sobre el rechazo de una hipótesis se pueden cometer dos

Equivocaciones.

1. Al rechazo de la hipótesis nula cuando esta es verdadera se le conoce como error tipo 1; la probabilidad de cometer un error de este tipo se de nota por medio del alfa (a).
2. La aceptación de hipótesis nula cuando ésta es falsa recibe el nombre de error tipo 2; la probabilidad de cometer un error de este tipo se representa con beta (ß).

Existe un equilibrio entre los dos tipos de errores, la probabilidad de cometer un tipo de error puede reducirse sólo si deseamos incrementar la probabilidad de cometer el otro.

Regresión y correlación

2.1.- Concepto de regresión:

La regresión es una técnica estadística utilizada para simular la relación existente entre dos o más variables. Por lo tanto se puede emplear para construir un modelo que permita predecir el comportamiento de una variable dada.La regresión es muy utilizada para interpretar situaciones reales, pero comúnmente se hace de mala forma, por lo cual es necesario realizar una selección adecuada de las variables que van a construir las ecuaciones de la regresión, ya que tomar variables que no tengan relación en la práctica, nos arrojará un modelo carente de sentido, es decir ilógico.

2.2.- Coeficiente de regresión.

Indica el número de unidades en que se modifica la variable dependiente "Y" por efecto del cambio de la variable independiente "X" o viceversa en una unidad de medida.

Clases de coeficiente de Regresión:

El coeficiente de regresión puede ser: Positivo, Negativo y Nulo.

Es positivo cuando las variaciones de la variable independiente X son directamente proporcionales a las variaciones de la variable dependiente "Y"

Es negativo, cuando las variaciones de la variable independiente "X" son inversamente proporcionales a las variaciones de las variables dependientes "Y"

Es nulo o cero, cuando entre las variables dependientes "Y" e independientes "X" no existen relación alguna.

edu.red

2.3.- Análisis de regresión.

El análisis de regresión es una herramienta estadística que permite analizar y predecir o estimar observaciones futuras de dos o más variables relacionadas entre sí, es decir una herramienta útil para la planeación.

2.4.- Tipos de regresión.

Podemos clasificar los tipos de regresión según diversos criterios.

En primer lugar, en función del número de variables independientes:

Regresión simple: Cuando la variable Y depende únicamente de una única variable X.
Regresión múltiple: Cuando la variable Y depende de varias variables (X1, X2, …, Xr)

En segundo lugar, en función del tipo de función f(X):

Regresión lineal: Cuando f(X) es una función lineal.
Regresión no lineal: Cuando f(X) no es una función lineal.

En tercer lugar, en función de la naturaleza de la relación que exista entre las dos variables:

La variable X puede ser la causa del valor de la variable Y.

Por ejemplo, en toxicología, si X = Dosis de la droga e Y = Mortalidad, la mortalidad se atribuye a la dosis administrada y no a otras causas.

Puede haber simplemente relación entre las dos variables.

Por ejemplo, en un estudio de medicina en que se estudian las variables X = Peso e Y = Altura de un grupo de individuos, puede haber relación entre las dos, aunque difícilmente una pueda considerarse causa de la otra.

En este tema se tratará únicamente de la Regresión lineal simple.

2.5.- Análisis de la regresión-lineal.

El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación entre variables. Se adapta a una amplia variedad de situaciones. En la investigación social, el análisis de regresión se utiliza para predecir un amplio rango de fenómenos, desde medidas económicas hasta diferentes aspectos del comportamiento humano. En el contexto de la investigación de mercados puede utilizarse para determinar en cuál de diferentes medios de comunicación puede resultar más eficaz invertir; o para predecir el número de ventas de un determinado producto. En física se utiliza para caracterizar la relación entre variables o para calibrar medidas. Etc.

2.6.- Concepto de correlación.

La correlación trata de establecer la relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional. Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas.

2.7.- Tipo de correlación.

Correlación directa

La correlación directa se da cuando al aumentar una de las variables la otra aumenta.

La recta correspondiente a la nube de puntos de la distribución es una recta creciente.

edu.red

Correlación inversa

La correlación inversa se da cuando al aumentar una de las variables la otra disminuye.

La recta correspondiente a la nube de puntos de la distribución es una recta decreciente.

edu.red

Correlación nula

La correlación nula se da cuando no hay dependencia de ningún tipo entre las variables.

En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada.

edu.red

2.8.- Grado de correlación.

El grado de correlación indica la proximidad que hay entre los puntos de la nube de puntos. Se pueden dar tres tipos:

Correlación fuerte

La correlación será fuerte cuanto más cerca esté los puntos de la recta.

edu.red

Correlación débil

La correlación será débil cuanto más separados estén los puntos de la recta.

edu.red

El coeficiente de correlación lineal es el cociente entre la covarianza y el producto de las desviaciones típicas de ambas variables.

El coeficiente de correlación lineal se expresa mediante la letra r.

edu.red

2.9.- Propiedades del coeficiente de correlación.

1. El coeficiente de correlación no varía al hacerlo la escala de medición.

Es decir, si expresamos la altura en metros o en centímetros el coeficiente de correlación no varía.

2. El signo del coeficiente de correlación es el mismo que el de la covarianza.

Si la covarianza es positiva, la correlación es directa.

Si la covarianza es negativa, la correlación es inversa.

Si la covarianza es nula, no existe correlación.

3. El coeficiente de correlación lineal es un número real comprendido entre -1 y 1. -1 = r = 1
4. Si el coeficiente de correlación lineal toma valores cercanos a -1 la correlación es fuerte e inversa, y será tanto más fuerte cuanto más se aproxime r a -1.
5. Si el coeficiente de correlación lineal toma valores cercanos a 1 la correlación es fuerte y directa, y será tanto más fuerte cuanto más se aproxime r a 1.
6. Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación es débil.
7. Si r = 1 ó -1, los puntos de la nube están sobre la recta creciente o decreciente. Entre ambas variables hay dependencia funcional.

2.10.- Como se calcula la correlación.

El coeficiente de correlación lineal se calcula aplicando la siguiente fórmula:

edu.red

Es decir:

Numerador: Se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x, y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamaño de la muestra.

Denominador Se calcula el producto de las varianzas de "x" y de "y", y a este producto se le calcula la raíz cuadrada.

Los valores que puede tomar el coeficiente de correlación "r" son: -1 < r < 1

Si "r" > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de la otra). La correlación es tanto más fuerte cuanto más se aproxime a 1.

Por ejemplo: altura y peso: los alumnos más altos suelen pesar más.

Si "r" < 0, la correlación lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlación negativa es tanto más fuerte cuanto más se aproxime a -1.

Por ejemplo: peso y velocidad: los alumnos más gordos suelen correr menos.

Si "r" = 0, no existe correlación lineal entre las variables. Aunque podría existir otro tipo de correlación (parabólica, exponencial, etc.)

De todos modos, aunque el valor de "r" fuera próximo a 1 o -1, tampoco esto quiere decir obligatoriamente que existe una relación de causa-efecto entre las dos variables, ya que este resultado podría haberse debido al puro azar

Autor:

Amaranta Dutti

República Bolivariana de Venezuela

Ministerio del Poder Popular para la Educación Superior

Universidad Nacional Experimental Politécnica de la Fuerza Armada

Unefa – Zulia

03-CBM-001

Maracaibo – Edo. Zulia.