Figura: La función de verosimilitud se obtiene a partir de la función de densidad, intercambiando los papeles entre parámetro y estimador. En una función de verosimilitud consideramos que las observaciones x1, …, xn, están fijadas, y se representa la gráfica con el valor de los valores que tomaría la función de densidad para todos los posibles valores del parámetro . El estimador máximo verosímil del parámetro buscado,, es aquel que maximiza su función de verosimilitud, . |
Como es lo mismo maximizar una función que su logaritmo (al ser este una función estrictamente creciente), este máximo puede calcularse derivando con respecto a la función de verosimilitud (bien su logaritmo) y tomando como estimador máximo verosímil al que haga la derivada nula:
De modo más preciso, se define el estimador máximo verosímil como la v.a.
Los estimadores de máxima verosimilitud tienen ciertas propiedades en general que a continuación enunciamos:
1. Son consistentes;
2. Son invariantes frente a transformaciones biunívocas, es decir, si es el estimador máximo verosímil de y es una función biunívoca de , entonces es el estimador máximo verosímil de .
3. Si es un estimador suficiente de , su estimador máximo verosímil, es función de la muestra a través de;
4. Son asintóticamente normales;
5. Son asintóticamente eficientes, es decir, entre todos los estimadores consistentes de un parámetro , los de máxima verosimilitud son los de varianza mínima.
6. No siempre son insesgados.
Momentos
Sea X una v.a. cuya función de probabilidad (o densidad de probabilidad si es continua) depende de unos parámetros desconocidos.
Representamos mediante una muestra aleatoria simple de la variable. Denotamos mediante fc a la función de densidad conjunta de la muestra, que por estar formada por observaciones independientes, puede factorizarse del siguiente modo:
Se denomina estimador de un parámetro, a cualquier v.a. que se exprese en función de la muestra aleatoria y que tenga por objetivo aproximar el valor de, Obsérvese que el estimador no es un valor concreto sino una variable aleatoria, ya que aunque depende unívocamente de los valores de la muestra observados (Xi=xi), la elección de la muestra es un proceso aleatorio. Una vez que la muestra ha sido elegida, se denomina estimación el valor numérico que toma el estimador sobre esa muestra.
Intuitivamente, las características que serían deseables para esta nueva variable aleatoria (que usaremos para estimar el parámetro desconocido) deben ser:
- Consistencia: Cuando el tamaño de la muestra crece arbitrariamente, el valor estimado se aproxima al parámetro desconocido.
- Carencia de sesgo: El valor medio que se obtiene de la estimación para diferentes muestras debe ser el valor del parámetro.
- Eficiencia: Al estimador, al ser v.a., no puede exigírsele que para una muestra cualquiera se obtenga como estimación el valor exacto del parámetro. Sin embargo podemos pedirle que su dispersión con respecto al valor central (varianza) sea tan pequeña como sea posible.
- Suficiencia: El estimador debería aprovechar toda la información existente en la muestra.
A continuación vamos a enunciar de modo más preciso y estudiar cada una de esas características.
Consideremos una v.a. de la que sólo conocemos que su ley de distribución es gaussiana,
Para muestras aleatorias de tamaño n=3,
Un posible estimador del parámetro µ es
Si al realizar un muestreo aleatorio simple obtenemos
Hemos dicho que el estimador sirve para aproximar el valor de un parámetro desconocido, pero… ¿si el parámetro es desconocido cómo podemos decir que un estimador dado sirve para aproximarlo? Así pues, es necesario que definamos en qué sentido un estimador es bueno para cierto parámetro.
Carencia de sesgo
Se dice que un estimador de un parámetro es insesgado si:
La carencia de sesgo puede interpretarse del siguiente modo: Supongamos que se tiene un número indefinido de muestras de una población, todas ellas del mismo tamaño n. Sobre cada muestra el estimador nos ofrece una estimación concreta del parámetro que buscamos. Pues bien, el estimador es insesgado, si sobre dicha cantidad indefinida de estimaciones, el valor medio obtenido en las estimaciones es (el valor que se desea conocer).
Consistencia
Decimos que es un estimador consistente con el parámetro si:
O lo que es equivalente
Este tipo de propiedades definidas cuando el número de observaciones n, tiende a infinito, es lo que se denomina propiedades asintóticas.
Como consecuencia de de la desigualdad de Thebycheff se puede demostrar el siguiente resultado:
Si se verifican las condiciones
Entonces es consistente.
Eficiencia
Dados dos estimadores y de un mismo parámetro, diremos que es más eficiente que si:
Suficiencia
Diremos que es un estimador suficiente del parámetro si
Para todo posible valor de .
Esta definición así enunciada tal vez resulte un poco oscura, pero lo que expresa es que un estimador es suficiente, si agota toda la información existente en la muestra que sirva para estimar el parámetro.
[Criterio de factorización de Fisher–Neyman] Sea la distribución conjunta para las muestras de tamaño n, . Entonces
siendo h una función no negativa que no depende de y r una función que sólo depende del parámetro y de la muestra a través del estimador.
- Estimación por intervalos de confianza
Cuando estimamos un parámetro en una densidad f(x,) a partir de un muestreo aleatorio simple, lo hacemos a partir del valor de una variable aleatoria, que es estimador de. Aún cuando dicho estimador haya sido obtenido para que goce de buenas propiedades, por ejemplo ser insesgado, en la práctica nadie nos garantiza el grado de divergencia entre la estimación obtenida y el verdadero valor del parámetro desconocido. Por ello parece razonable controlar las estimaciones puntuales con otros parámetros de estimación en los cales se posee información paramétrica entre estimaciones y parámetros desconocidos. A tal efecto, surgen los intervalos de confianza para estimar parámetros. Un intervalo de confianza para un parámetro será un intervalo donde podemos controlar la probabilidad de que se encuentre verdaderamente.
Definición: Sea x1, x2, …., xn un muestreo aleatorio simple de una población f(x,, donde es un parámetro desconocido. Un intervalo de confianza para viene dado por dos estadísticos U y V tales. es una cantidad que fija el investigador, usualmente los valores desuelen ser 0,1 ; 0,01 ó 0,05. Por defecto
= 0,05. U y V son estimadores por defecto y por exceso de. Diremos entonces que (U,V) es el intervalo de confianza para de nivel de confianza 1 –.
Una vez que se observen los valores muestrales, su sustitución en (U,V) proporciona el intervalo numérico (U,V).
La interpretación del intervalo de confianza es el siguiente en una larga serie de determinaciones de intervalos basados en muestras distintas, el 100·(1-)% de tales intervalos contendría el valor de.
A continuación se muestran los diferentes intervalos de confianza donde se quiere saber si se conoce la desviación estándar, si no se conoce, etc., como ya sabemos la desviación estándar se obtiene de la raíz cuadrada de la varianza, por lo tanto para los siguientes problemas seguiremos este procedimiento.
Intervalo de Confianza para la media de una población normal con varianza conocida:
Sea x1, x2, …., xn un muestreo aleatorio simple de N,desconocido yconocido. Se desea obtener un intervalo de confianza para de nivel. Como consecuencia del teorema de Fisher se sabe que . Por tanto .
Existe tal que
Pero
Por tanto:
Entonces:
I.C. = de nivel
Intervalo de confianza para la media de una normal con varianza desconocida
Sea x1, x2, …., xn un muestreo aleatorio simple de N, ydesconocidos. Se desea obtener un intervalo de confianza para de nivel. Sabiendo como consecuencia del teorema de Fisher se sabe que y que , entonces:
Por tanto existe un tal que .
Además,
EntoncesY por tanto el intervalo de confianza para de niveles:
I.C. =
Intervalo de confianza para la varianza de una normal:
Sea x1, x2, …., xn un muestreo aleatorio simple de Ncondesconocida. puede ser conocida o desconocida. Se desea obtener un intervalo de confianza para . Según el teorema de Fisher .
Existen cantidades Ka y Kb tales que:
. Pero y
Por tanto
Luego el intervalo de confianza será: I.C. = de nivel 1-
Si se desease obtener el intervalo de confianza para, es decir, para la desviación típica, como la raíz es función creciente, entonces:
I.C. = para, de nivel 1-
Intervalo de confianza para la diferencia de medias en poblaciones normales con varianza conocida:
Sea x1, x2, …., xn un muestreo aleatorio simple de Ny y1, y2, …., yn uno de N. Ambas muestras independientes. Supongamos que y son desconocidos y yconocidas. Se desea obtener un intervalo de confianza para
–de nivel 1-.
Sabemos que
Existe unverificando
Despejando:
Entonces Luego el intervalo de confianza es:
I.C. = de nivel 1-
Intervalo de confianza para en una distribución de Poisson si la muestra es muy grande.
Sea x1, x2, …., xn muestreo aleatorio simple de P() condesconocido y suponemos que n es muy grande.
El EMV dees que es EMV y alcanza la Cota de Cramer Rao. Como consecuencia:
(Teorema del límite central)
Existe por tanto tal que
Pero y
Como los extremos del intervalo de confianza dependen de, tal y como ha probado el resultado, no podemos obtener un intervalo de confianza. Existen dos alternativas:
- Método aproximado: Consiste en sustituir en los extremos anteriores el valor de por su EMV. Entonces:
I.C. = de nivel 1-.
- Método exacto:
, pero
Como el coeficiente dees positivo, la parábola es cóncava y por tanto la ecuación anterior se satisface para los valores decomprendido entre las dos raíces.
Por lo que el intervalo de confianza es:
I.C. = de nivel 1-
Intervalos de confianza para variables dicotómicas
Cuando tenemos una variable dicotómica (o de Bernoulli)a menudo interesa saber en qué proporción de casos, p, ocurre el éxito en la realización de un experimento. También nos puede interesar el comparar la diferencia existente entre las proporciones en distintas poblaciones. También es de interés calcular para un nivel de significación dado, el tamaño muestral necesario para calcular un intervalo de confianza de cuyo radio sea menor que cierta cantidad.
Intervalo para una proporción
Sean . Si queremos estimar el parámetro p, la manera más natural de hacerlo consiste en definir la suma de estas –lo que nos proporciona una distribución Binomial:
y tomar como estimador suyo la v.a.
Es decir, tomamos como estimación de p la proporción de éxitos obtenidos en las n pruebas, p.
La distribución del número de éxitos es binomial, y puede ser aproximada a la normal cuando el tamaño de la muestra n es grande, y p no es una cantidad muy cercana a cero o uno:
El estimador p no es más que un cambio de escala de X, por tanto
Esta expresión presenta dificultades para el cálculo, siendo más cómodo sustituirla por la siguiente aproximación:
Para encontrar el intervalo de confianza al nivel de significación para p se considera el intervalo que hace que la distribución de deje la probabilidad fuera del mismo. Es decir, se considera el intervalo cuyos extremos son los cuantiles y . Así se puede afirmar con una confianza de 1-a que:
Esto se resume en la siguiente expresión:
con una confianza de 1-a
Figura: Intervalo de confianza para una proporción. |
Ejemplo
Se quiere estimar el resultado de un referéndum mediante un sondeo. Para ello se realiza un muestreo aleatorio simple con n=100 personas y se obtienen 35% que votarán a favor y 65% que votarán en contra (suponemos que no hay indecisos para simplificar el problema a una variable dicotómica). Con un nivel de significación del 5%, calcule un intervalo de confianza para el verdadero resultado de las elecciones.
Solución: Dada una persona cualquiera (i) de la población, el resultado de su voto es una variable dicotómica:
El parámetro a estimar en un intervalo de confianza con α=0.05 es p, y tenemos sobre una muestra de tamaño n=100, la siguiente estimación puntual de p:
Sabemos que
En la práctica el error que se comete no es muy grande si tomamos algo más simple como
Así el intervalo de confianza buscado lo calculamos como se indica:
Por tanto, tenemos con esa muestra un error aproximado de 9,3 puntos al nivel de confianza del 95%.
Figura: Región a partir de la cual se realiza una estimación confidencial para una proporción, con una confianza del 95%. |
Elección del tamaño muestral para una proporción
En un ejemplo previo con una muestra de 100 individuos se realizó una estimación confidencial, con un 95% de confianza, del porcentaje de votantes a una cuestión en un referéndum, obteniéndose un margen de error de 9,3 puntos.
Si pretendemos reducir el error a 1 punto y queremos aumentar el nivel de confianza hasta el 97% ( ) hemos de tomar una muestra lógicamente de mayor tamaño, N. La técnica para aproximar dicha cantidad consiste en observar que el error cometido en una estimación es de la forma:
Donde es una estimación puntual de p.
Por tanto un valor de N que satisfaga nuestros requerimientos con respecto al error sería:
Si en un principio no tenemos una idea sobre que valores puede tomar p, debemos considerar el peor caso posible, que es en el que se ha de estimar el tamaño muestral cuando p=q=1/2. Así:
1 Ejemplo
Continuemos el último ejemplo. Se quiere estimar el resultado de un referéndum mediante un sondeo, y sin tener una idea sobre el posible resultado del mismo, se desea conocer el tamaño de muestra que se ha de tomar para obtener un intervalo al 97% de confianza, con un error del 1
Solución:
Como no se tiene una idea previa del posible resultado del referéndum, hay que tomar un tamaño de muestra, N, que se calcula mediante:
Así para tener un resultado tan fiable, el número de personas a entrevistar debe ser muy elevado –lo que puede volver excesivamente costoso el sondeo.
Intervalo para la diferencia de dos proporciones
Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas estudiamos una v.a. dicotómica (Bernoulli)de parámetros respectivos p1 y p2. De cada población vamos a extraer muestras de tamaño n1 y n2
Entonces
Si las muestras son suficientemente grandes ocurre que
Esta última relación se puede aproximar por otra que simplifica bastante los cálculos:
Por el mismo razonamiento que en el caso de una población llegamos a que una aproximación para un intervalo de confianza al nivel 1-α para la diferencia de proporciones de dos poblaciones es:
Problemas
Ejercicio 1. Se ha medido el volumen diario de bilis, expresado en litros, en 10 individuos sanos, obteniéndose
0,98; 0,85; 0,77; 0,92; 1,12; 1,06; 0,89; 1,01; 1,21; 0,77.
¿Cuanto vale la producción diaria media de bilis en individuos sanos suponiendo que la muestra ha sido obtenida por muestreo aleatorio simple sobre una población normal?
Ejercicio 2. La cantidad mínima requerida para que un anestésico surta efecto en una intervención quirúrgica fue por término medio de 50 mg., con una desviación típica de 10,2 mg., en una muestra de 60 pacientes. Obtener un intervalo de confianza para la media al 99%, suponiendo que la muestra fue extraída mediante muestreo aleatorio simple sobre una población normal.
Ejercicio 3. Un investigador está interesado en estimar la proporción de muertes debidas a cáncer de estómago en relación con el número de defunciones por cualquier tipo de neoplasia. Su experiencia le indica que sería sorprendente que tal proporción supere el valor de 1/3. ¿Qué tamaño de muestra debe tomar para estimar la anterior proporción, con una confianza del 99%, para que el valor estimado no difiera del valor real en más de 0,03?
Ejercicio 4. Se desea realizar una estimación confidencial de la varianza de la estatura de los niños varones de 10 años de una ciudad con una confianza del 95%. ¿Cuál será dicho intervalo si se toma una muestra de 101 niños al azar, entre todos los que reúnen las características deseadas, y medimos sus estaturas, y se obtienen las siguientes estimaciones puntuales: , ?
Ejercicio 5. Un cardiólogo se encuentra interesado en encontrar límites de confianza al 90%, para la presión sistólica tras un cierto ejercicio físico. Obtenerlos si en 50 individuos se obtuvo , y suponemos que el comportamiento de la v.a. es normal.
Ejercicio 6. En una muestra de 25 bebés varones de 12 semanas de vida, se obtuvo un peso medio de 5.900 gr. y una desviación típica de 94 gr.
1. Obtener un intervalo de confianza (al 95%) para el peso medio poblacional.
2. ¿Cuántos niños habría que tomar para estimar dicha media con una precisión de 15 gr?
Ejercicio 7. En un determinado servicio de odontología se sabe que el 22% de las visitas llevan consigo una extracción dentaria inmediata. En cierto año, de 2.366 visitas, 498 dieron lugar a una extracción inmediata. ¿Entran en contradicción las cifras de ese año con el porcentaje establecido de siempre?
Ejercicio 8. Sólo una parte de los pacientes que sufren un determinado síndrome neurológico consiguen una curación completa; Si de 64 pacientes observados se han curado 41, dar una estimación puntual y un intervalo de la proporción de los que sanan. ¿Qué número de enfermos habría que observar para estimar la proporción de curados con un error inferior a 0,05 y una confianza del 95%?
Ejercicio 9. Se desea estimar el tiempo medio de sangría en fumadores de más de 20 cigarrillos diarios, con edades comprendidas entre 35 y 40 años, con una precisión de 5 segundos. Ante la ausencia de cualquier información acerca de la variabilidad del tiempo de sangría es este tipo de individuos, se tomó una muestra preliminar de 5 individuos, en los que se obtuvieron los siguientes tiempos (en segundos):
97, 80, 67, 91, 73.
Determinar el tamaño mínimo de muestra, al 95%, para cumplir el objetivo anterior.
Ejercicio 10. En una determinada región se tomó una muestra aleatoria de 125 individuos, de los cuales 12 padecían afecciones pulmonares.
1. Estímese la proporción de afecciones pulmonares en dicha región.
2. Si queremos estimar dicha proporción con un error máximo del 4%, para una confianza del 95%, ¿qué tamaño de muestra debemos tomar?
Ejercicio 11. En una muestra de tabletas de aspirinas, de las cuales observamos su peso expresado en gramos, obtenemos:
1,19; 1,23; 1,18; 1,21; 1,27; 1,17; 1,15; 1,14; 1,19; 1,2
Suponiendo la Normalidad para esta distribución de pesos, determinar un intervalo al 80% de confianza para la varianza.
Ejercicio 12. Se quiere estimar la incidencia de la hipertensión arterial en el embarazo. ¿Cuantas embarazadas tenemos que observar para, con una confianza del 95%, estimar dicha incidencia con un error del 2% en los siguientes casos?
1. Sabiendo que un sondeo previo se ha observado un 9% de hipertensas.
2. Sin ninguna información previa.
Prueba de Hipótesis
Referente al contraste de hipótesis, sabemos que un problema es investigable cuando existen dos o más soluciones alternativas y tenemos dudas acerca de cual de ellas es la mejor. Esta situación permite formular una o más hipótesis de trabajo, ya que cada una de ellas destaca la conveniencia de una de las soluciones sobre las demás. Si nuestro propósito es comprobar una teoría ella misma será la hipótesis del trabajo, pero es importante destacar que al formular dicha o dichas hipótesis no significa que ya esté resuelto el problema, al contrario, que nuestra duda nos impulsa a comprobar la verdad o falsedad de cada una de ellas.
La decisión final partirá de las decisiones previas de aceptar o rechazar las hipótesis de trabajo.
Supongamos que debemos realizar un estudio sobre la altura media de los habitantes de cierto pueblo de España. Antes de tomar una muestra, lo lógico es hacer la siguiente suposición a priori, (hipótesis que se desea contrastar y que denotamos H0):
Al obtener una muestra de tamaño n=8, podríamos encontrarnos ante uno de los siguientes casos:
1. Muestra = {1,50 ;1,52; 1,48; 1,55; 1,60; 1,49; 1,55; 1,63}
2. Muestra = {1,65; 1,80; 1,73; 1,52; 1,75; 1,65; 1,75; 1,78}
Intuitivamente, en el caso a sería lógico suponer que salvo que la muestra obtenida sobre los habitantes del pueblo sea muy poco representativa, la hipótesis H0 debe ser rechazada. En el caso b tal vez no podamos afirmar con rotundidad que la hipótesis H0 sea cierta, sin embargo no podríamos descartarla y la admitimos por una cuestión de simplicidad.
Etapas Básicas en Pruebas de Hipótesis.
Al realizar pruebas de hipótesis, se parte de un valor supuesto (hipotético) en parámetro poblacional. Después de recolectar una muestra aleatoria, se compara la estadística muestral, así como la media (x), con el parámetro hipotético, se compara con una supuesta media poblacional (m ). Después se acepta o se rechaza el valor hipotético, según proceda. Se rechaza el valor hipotético sólo si el resultado muestral resulta muy poco probable cuando la hipótesis es cierta.
Etapa 1.- Planear la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0) es el valor hipotético del parámetro que se compra con el resultado muestral resulta muy poco probable cuando la hipótesis es cierta.
Etapa 2.- Especificar el nivel de significancia que se va a utilizar. El nivel de significancia del 5%, entonces se rechaza la hipótesis nula solamente si el resultado muestral es tan diferente del valor hipotético que una diferencia de esa magnitud o mayor, pudiera ocurrir aleatoriamente con una probabilidad de 1.05 o menos.
Etapa 3.- Elegir la estadística de prueba. La estadística de prueba puede ser la estadística muestral (el estimador no segado del parámetro que se prueba) o una versión transformada de esa estadística muestral. Por ejemplo, para probar el valor hipotético de una media poblacional, se toma la media de una muestra aleatoria de esa distribución normal, entonces es común que se transforme la media en un valor z el cual, a su vez, sirve como estadística de prueba.
Consecuencias de las Decisiones en Pruebas de Hipótesis.
Decisiones Posibles | Situaciones Posibles | |
La hipótesis nula es verdadera | La hipótesis nula es falsa | |
Aceptar la Hipótesis Nula | Se acepta correctamente | Error tipo II |
Rechazar la Hipótesis Nula | Error tipo I | Se rechaza correctamente |
Etapa 4.- Establecer el valor o valores críticos de la estadística de prueba. Habiendo especificado la hipótesis nula, el nivel de significancia y la estadística de prueba que se van a utilizar, se produce a establecer el o los valores críticos de estadística de prueba. Puede haber uno o más de esos valores, dependiendo de si se va a realizar una prueba de uno o dos extremos.
Etapa 5.- Determinar el valor real de la estadística de prueba. Por ejemplo, al probar un valor hipotético de la media poblacional, se toma una muestra aleatoria y se determina el valor de la media muestral. Si el valor crítico que se establece es un valor de z, entonces se transforma la media muestral en un valor de z.
Etapa 6.- Tomar la decisión. Se compara el valor observado de la estadística muestral con el valor (o valores) críticos de la estadística de prueba. Después se acepta o se rechaza la hipótesis nula. Si se rechaza ésta, se acepta la alternativa; a su vez, esta decisión tendrá efecto sobre otras decisiones de los administradores operativos, como por ejemplo, mantener o no un estándar de desempeño o cuál de dos estrategias de mercadotecnia utilizar.
Conceptos Básicos para el Procedimiento de Pruebas de Hipótesis.
Hipótesis Estadística:
Al intentar alcanzar una decisión, es útil hacer hipótesis (o conjeturas) sobre la población aplicada.
Tales hipótesis, que pueden ser o no ciertas, se llaman hipótesis estadísticas.
Son, en general, enunciados acerca de las distribuciones de probabilidad de las poblaciones.
Hipótesis Nula:
En muchos casos formulamos una hipótesis estadística con el único propósito de rechazarla o invalidarla. Así, si queremos decidir si una moneda está trucada, formulamos la hipótesis de que la moneda es buena (o sea p = 0,5, donde p es la probabilidad de cara).
Analógicamente, si deseamos decidir si un procedimiento es mejor que otro, formulamos la hipótesis de que no hay diferencia entre ellos (o sea. Que cualquier diferencia observada se debe simplemente a fluctuaciones en el muestreo de la misma población). Tales hipótesis se suelen llamar hipótesis nula y se denotan por H0.
Hipótesis Alternativa.
Toda hipótesis que difiere de una dada se llamará una hipótesis alternativa. Por ejemplo: Si una hipótesis es p = 0,5, hipótesis alternativa podrían ser p = 0,7, p ¹ 0,5 ó p > 0,5.
Una hipótesis alternativa a la hipótesis nula se denotará por H1.
Errores de tipo I y de tipo II.
Si rechazamos una hipótesis cuando debiera ser aceptada, diremos que se ha cometido un error de tipo I.
Por otra parte, si aceptamos una hipótesis que debiera ser rechazada, diremos que se cometió un error de tipo II.
En ambos casos, se ha producido un juicio erróneo.
Para que las reglas de decisión (o no contraste de hipótesis) sean buenas, deben diseñarse de modo que minimicen los errores de la decisión; y no es una cuestión sencilla, porque para cualquier tamaño de la muestra, un intento de disminuir un tipo de error suele ir acompañado de un crecimiento del otro tipo. En la práctica, un tipo de error puede ser más grave que el otro, y debe alcanzarse un compromiso que disminuya el error más grave.
La única forma de disminuir ambos a la vez es aumentar el tamaño de la muestra que no siempre es posible.
Niveles de Significación.
Al contrastar una cierta hipótesis, la máxima probabilidad con la que estamos dispuesto a correr el riesgo de cometerán error de tipo I, se llama nivel de significación.
Esta probabilidad, denota a menudo por a se, suele especificar antes de tomar la muestra, de manera que los resultados obtenidos no influyan en nuestra elección.
En la práctica, es frecuente un nivel de significación de 0,05 ó 0,01, si bien se une otros valores. Si por ejemplo se escoge el nivel de significación 0,05 (ó 5%) al diseñar una regla de decisión, entonces hay unas cinco (05) oportunidades entre 100 de rechazar la hipótesis cuando debiera haberse aceptado; Es decir, tenemos un 95% de confianza de que hemos adoptado la decisión correcta. En tal caso decimos que la hipótesis ha sido rechazada al nivel de significación 0,05, lo cual quiere decir que tal hipótesis tiene una probabilidad 0,05 de ser falsa.
Veamos como se combinan todos los conceptos anteriores:
En un contraste de hipótesis (también denominado test de hipótesis o Contraste de significación) se decide si cierta hipótesis H0 que denominamos hipótesis nula puede ser rechazada o no a la vista de los datos suministrados por una muestra de la población. Para realizar el contraste es necesario establecer previamente una hipótesis alternativa (H1) que será admitida cuando H0 sea rechazada. Normalmente H1es la negación de H0, aunque esto no es necesariamente así.
El procedimiento general consiste en definir un estadístico T relacionado con la hipótesis que deseamos contrastar. A éste lo denominamos estadístico del contraste. A continuación suponiendo que H0 es verdadera se calcula un intervalo de denominado intervalo de aceptación de la hipótesis nula, de manera que al calcular sobre la muestra T=Texp el criterio a seguir sea:
El intervalo de aceptación o más precisamente, de no rechazo de la hipótesis nula, se establece fijando una cantidad suficientemente pequeña denominada nivel de significación, de modo que la probabilidad de que el estadístico del contraste tome un valor fuera del mismo — región crítica—
Cuando la hipótesis nula es cierta sea inferior o al ; Esto se ha de entender como sigue:
Si H0 es correcta el criterio de rechazo sólo se equivoca con probabilidad , que es la probabilidad de que una muestra dé un valor del estadístico del contraste extraño (fuera del intervalo de aceptación).
La decisión de rechazar o no la hipótesis nula están al fin y al cabo basado en la elección de una muestra tomada al azar, y por tanto es posible cometer decisiones erróneas. Los errores que se pueden cometer se clasifican como sigue:
Error de tipo I:
Es el error que consiste en rechazar H0 cuando es cierta. La probabilidad de cometer este error es lo que anteriormente hemos denominado nivel de significación. Es una costumbre establecida el denotarlo siempre con la letra
Error de tipo II:
Es el error que consiste en no rechazar H0 cuando es falsa. La probabilidad de cometer este error la denotamos con la letra β.
Pruebas de Uno y Dos Extremos (Unilaterales y Biblaterales).
Cuando estudiamos ambos valores estadísticos es decir, ambos lados de la media lo llamamos prueba de uno y dos extremos o contraste de una y dos colas.
Con frecuencia no obstante, estaremos interesados tan sólo en valores extremos a un lado de la media (o sea, en uno de los extremos de la distribución), tal como sucede cuando se contrasta la hipótesis de que un proceso es mejor que otro (lo cual no es lo mismo que contrastar si un proceso es mejor o peor que el otro) tales contrastes se llaman unilaterales, o de un extremo. En tales situaciones, la región crítica es una región situada a un lado de la distribución, con área igual al nivel de significación.
La siguiente tabla de valores críticos de "z" para contraste de unos o dos extremos en varios niveles de significación.
Nivel de significación a | 0.10 | 0.05 | 0.01 | 0.005 | 0.02 |
Valores críticos de "z" para Test Unilaterales | -1.28 o 1.28 | -1.645 o 1.645 | -2.33 o 2.33 | -2.58 o 2.58 | -2.88 o 2.88 |
Valores Críticos de "z" para Test Bilaterales | – 1.645 y 1.645 | – 1.96 y 1.96 | -2.58 y 2.58 | -2.81 y 2.81 | -3.08 y 3.08 |
Curva Característica Operativa y Curva de Potencia.
Hemos visto como limitar el error de tipo I eligiendo adecuadamente el nivel de significación.
Es posible evitar el riesgo de cometer error de tipo II simplemente no aceptado nunca hipótesis, pero en muchas aplicaciones prácticas esto es inviable.
En tales casos se suele recurrir a curvas de operación características o curvas de "OC", que son gráficos que muestran las probabilidades de error de tipo II bajo diversas hipótesis.
Proporcionan indicadores de hasta que punto un test dado nos permitirá evitar un error de tipo II; es decir, nos indicará la potencia de un test a la hora de prevenir decisiones erróneas. Son útiles en el diseño de experimentos porque sugieren entre otras cosas al tamaño de muestra a manejar.
Grados de Libertad.
Para el cálculo de un estadístico, es necesario emplear tanto observaciones de muestra como propiedades de ciertos parámetros de la población. Si estos parámetros son desconocidos, hay que estimarlos a partir de la muestra el número de grados de libertad de un estadístico, generalmente denotado por "v" se define como el número "N" de observaciones independientes en la muestra (o sea, el tamaño de la muestra) menos el número K de parámetros de la población, que debe ser estimado a partir de observaciones muéstrales.
En símbolos, v = N – k.
1. Los errores de tipo I y II no están relacionados más que del siguiente modo: Cuando α decrece β crece. Por tanto no es posible encontrar tests que hagan tan pequeρos como queramos ambos errores simultáneamente. De este modo es siempre necesario privilegiar a una de las hipótesis, de manera que no será rechazada, a menos que su falsedad se haga muy evidente. En los contrastes, la hipótesis privilegiada es H0 que sólo será rechazada cuando la evidencia de su falsedad supere el umbral del .
2. Al tomar α muy pequeρo tendremos que β se puede aproximar a uno. Lo ideal a la hora de definir un test es encontrar un compromiso satisfactorio entre y α (aunque siempre a favor de H0). Denominamos potencia de un contraste a la cantidad 1-β, es decir
| no rechazar H0 | rechazar H0 |
H0 es cierta | Correcto | Error tipo I |
| Probabilidad | Probabilidad |
H0 es falsa | Error tipo II | Correcto |
| Probabilidad | Probabilidad |
3. En el momento de elegir una hipótesis privilegiada podemos en principio dudar entre si elegir una dada o bien su contraria. Criterios a tener en cuenta en estos casos son los siguientes:
- Simplicidad científica: A la hora de elegir entre dos hipótesis científicamente razonables, tomaremos como H0 aquella que sea más simple.
- Las consecuencias de equivocarnos: Por ejemplo al juzgar el efecto que puede causar cierto tratamiento médico que está en fase de experimentación, en principio se ha de tomar como hipótesis nula aquella cuyas consecuencias por no rechazarla siendo falsa son menos graves, y como hipótesis alternativa aquella en la que el aceptarla siendo falsa trae peores consecuencias. Es decir,
- Otro ejemplo claro es cuando acaban de instalar un nuevo ascensor en el edificio que habitamos y queremos saber si el ascensor caerá o no al vacío cuando nosotros estemos dentro. Una persona prudente es la que espera a que un número suficiente de vecinos suyos hayan usado el ascensor (muestra aleatoria) y realiza un test del tipo
Y sólo aceptará la hipótesis alternativa para aunque para ello tenga que ocurrir que , ya que las consecuencias del error de tipo I (ir al hospital) son mucho más graves que las del error del tipo II (subir a pie varios pisos).
Es decir a la hora de decidirse por una de las dos hipótesis no basta con elegir la más probable (nadie diría “voy a tomar el ascensor pues la probabilidad de que no se caiga es del 60%"). Hay que elegir siempre la hipótesis H0 a menos que la evidencia a favor de H1 sea muy significativa.
Volviendo al ejemplo de la estatura de los habitantes de un pueblo, un estadístico de contraste adecuado es . Si la hipótesis H0 fuese cierta se tendría que
(Suponiendo claro está que la distribución de las alturas de los españoles siga una distribución normal de parámetros conocidos, por ejemplo
Denotemos mediante µ0 el verdadero valor de la media en el pueblo que estudiamos. Como la varianza de es pequeña para grandes valores de n, lo lógico es pensar que si el valor obtenido con la muestra está muy alejado de µ=1’74 (región crítica), entonces
- bien la muestra es muy extraña si H0 es cierta (probabilidad );
- bien la hipótesis H0 no es cierta.
Concretamente en el caso a, donde la muestra es
El contraste de hipótesis conveniente es:
En este caso H1 no es estrictamente la negación de H0. Esto dará lugar a un contraste unilateral, que son aquellos en los que la región crítica está formada por un sólo intervalo:
En el caso b, donde la muestra es:
El contraste de hipótesis que deberíamos realizar es:
Como vemos, ahora sí se puede decir que H1 es la negación de H0. Esto es un contraste bilateral, que son aquellos en los que la región crítica está formada por dos intervalos separados:
Los últimos conceptos que introducimos son:
- Hipótesis simple: Aquella en la que se especifica un único valor del parámetro. Este es el caso de las hipótesis nulas en los dos últimos contrastes mencionados.
- Hipótesis compuesta: Aquella en la que se especifica más de un posible valor del parámetro. Por ejemplo tenemos que son compuestas las hipótesis alternativas de esos mismos contrastes.
Contrastes paramétricos en una población normal
Supongamos que la característica X que estudiamos sobre la población sigue una distribución normal y tomamos una muestra de tamaño n
Mediante muestreo aleatorio simple. Vamos a ver cuales son las técnicas para contrastar hipótesis sobre los parámetros que rigen X. Vamos a comenzar haciendo diferentes tipos de contrastes para medias y después sobre las varianzas y desviaciones típicas.
Test de dos colas con varianza conocida
Suponemos que donde es conocido y queremos contrastar si es posible que µ (desconocida) sea en realidad cierto valor µ0 fijado. Esto es un supuesto teórico que nunca se dará en la realidad pero servirá para introducir la teoría sobre contrastes.
El test se escribe entonces como:
Como hemos mencionado anteriormente, la técnica para hacer el contraste consiste en suponer que H0 es cierta, y averiguar con esta hipótesis quien es la distribución del estadístico del contraste que este caso es lógico que deba estar muy relacionado con . Si al obtener una muestra concreta se tiene que es un valor muy alejado de µ0, se debe rechazar H0. Veamos esto con más detalle:
Para poder acceder a las probabilidades de la normal, hemos tipificado (ya que los valores para hacer la tipificación son conocidos). Si H0 es cierta, entonces esperamos que el valor zexp obtenido sobre la muestra
Esté cercano a cero con una gran probabilidad. Esto se expresa fijando un nivel de significación , y tomando como región crítica , a los valores que son muy extremados y con probabilidad en total, o sea,
Entonces la región crítica consiste en
Luego rechazaremos la hipótesis nula si
Aceptando en consecuencia la hipótesis alternativa.
Figura: La región de rechazo de la hipótesis nula es la sombreada. Se rechaza H0 cuando el estadístico zexp toma un valor comprendido en la zona sombreada de la gráfica pequeña, N(0,1), o equivalentemente, cuando el estadístico toma un valor en la zona sombreada de la gráfica grande, . |
Tests de una cola con varianza conocido
Consideremos un contraste de hipótesis donde ahora la hipótesis alternativa es compuesta:
Bajo la hipótesis nula la distribución de la media muestral es
Y como región crítica consideraremos aquella formada por los valores extremadamente bajos de Zexp, con probabilidad , es decir:
Entonces la región de aceptación, o de modo más correcto, de no rechazo de la hipótesis nula es:
Figura: Se rechaza la hipótesis nula, cuando uno de los estadístico Z o toma un valor en la zona sombreada de sus gráficas respectivas. |
Es evidente que si en el contraste de significación, hubiésemos tomado como hipótesis alternativa su contraria, es decir
Por simetría con respecto al caso anterior, la región donde no se rechaza la hipótesis nula es:
Figura: Regiones de aceptación y rechazo para el test unilateral contrario. |
Test de dos colas con varianza desconocida
Sea donde ni µ ni σ2son conocidos y queremos realizar el contraste:
Al no conocer va a ser necesario estimarlo a partir de su estimador insesgado: la cuasivarianza muestral, , ya definida en la relación, página. Por ello la distribución del estimador del contraste será una de Student, que ha perdido un grado de libertad, según el teorema de Cochran, enunciado en la página y la definición de la distribución de Student en la página:
Consideramos como región crítica , a las observaciones de Texp extremas
O sea
Observación
Para dar una forma homogénea a todos los contrastes de hipótesis es costumbre denominar al valor del estadístico del contraste calculado sobre la muestra como valor experimental y a los extremos de la región crítica, como valores teóricos. Definiendo entonces:
El resultado del contraste es el siguiente:
Figura: Región crítica para el contraste bilateral de una media. |
Tests de una cola con varianza desconocido
Si realizamos el contraste
Por analogía con el contraste bilateral, definiremos
Y el criterio para contrastar al nivel de significación es:
Figura: Región crítica para uno de los contrastes unilaterales de una media. |
Para el contraste contrario,
Definimos Texp y Tteo como anteriormente y el criterio a aplicar es:
Figura: Región crítica para el contrastes unilateral de una media contrario al anterior. |
Ejemplo
Conocemos que las alturas X de los individuos de una ciudad, se distribuyen de modo gaussiano. Deseamos contrastar con un nivel de significación de si la altura media es diferente de 174 cm. Para ello nos basamos en un estudio en el que con una muestra de n=25 personas se obtuvo:
Solución:
El contraste que se plantea es:
La técnica a utilizar consiste en suponer que H0 es cierta y ver si el valor que toma el estadístico
Es “razonable" o no bajo esta hipótesis, para el nivel de significación dado. Aceptaremos la hipótesis alternativa (y en consecuencia se rechazará la hipótesis nula) si no lo es, es decir, si
Para ello procedemos al cálculo de Texp:
Luego, aunque podamos pensar que ciertamente el verdadero valor de µ no es 174, no hay una evidencia suficiente para rechazar esta hipótesis al nivel de confianza del 95% . Es decir, no se rechaza H0.
Figura: El valor de Texp no está en la región crítica (aunque ha quedado muy cerca), por tanto al no ser la evidencia en contra de H0 suficientemente significativa, ésta hipótesis no se rechaza. |
Consideramos el mismo ejemplo de antes. Visto que no hemos podido rechazar el que la altura media de la población sea igual a 174 cm, deseamos realizar el contraste sobre si la altura media es menor de 174 cm.
Solución:
Ahora el contraste es
Para realizar este contraste, consideramos el caso límite y observamos si la hipótesis nula debe ser rechazada o no. Este es:
De nuevo la técnica a utilizar consiste en suponer que H0' es cierta y ver si el valor que toma el estadístico:
Es aceptable bajo esta hipótesis, con un nivel de confianza del 95%. Se aceptará la hipótesis alternativa (y en consecuencia se rechazará la hipótesis nula) si
Recordamos que el valor de Texp obtenido fue de
Texp=-1'959< t24,0'05= -t24,0'95 = -1'71
Por ello hemos de aceptar la hipótesis alternativa.
Figura: El valor te Texp está en la región crítica, por tanto existe una evidencia significativa en contra de H0, y a favor de H1. |
Es importante observar este hecho curioso: Mientras que en el ejemplo anterior no existía una evidencia significativa para decir que µ≠174cm, el “simple hecho" de plantearnos un contraste que parece el mismo pero en versión unilateral nos conduce a rechazar de modo significativo que µ=174 y aceptamos que µ<174cm. Es por ello que podemos decir que no sólo H0' es rechazada, sino también H0. Es en este sentido en el que los tests con H0 y H0' los consideramos equivalentes:
Página anterior | Volver al principio del trabajo | Página siguiente |