Intervalos de confianza con Z y t de Student empleando Excel, Winstats y GeoGebra
Enviado por Mario Orlando Suárez Ibujes
INTERVALOS DE CONFIANZA CON Z Y t DE STUDENT EMPLEANDO EXCEL, WINSTATS Y GEOGEBRA
La estadística inferencial es el proceso de uso de los resultados derivados de las muestras para obtener conclusiones acerca de las características de una población. La estadística inferencial nos permite estimar características desconocidas como la media de la población o la proporción de la población. Existen dos tipos de estimaciones usadas para estimar los parámetros de la población: la estimación puntual y la estimación de intervalo. Una estimación puntual es el valor de un solo estadístico de muestra. Una estimación del intervalo de confianza es un rango de números, llamado intervalo, construido alrededor de la estimación puntual. El intervalo de confianza se construye de manera que la probabilidad del parámetro de la población se localice en algún lugar dentro del intervalo conocido.
Suponga que quiere estimar la media de todos los alumnos en su universidad. La media para todos los alumnos es una media desconocida de la población, simbolizada como ??. Usted selecciona una muestra de alumnos, y encuentra que la media es de 5,8. La muestra de la media ??¯ = 5,8 es la estimación puntual de la media poblacional ??. ¿Qué tan preciso es el 5,8? Para responder esta pregunta debe construir una estimación del intervalo de confianza.
Recuerde que la media de la muestra ??¯ es una estimación puntual de la media poblacional ??. Sin embargo, la media de la muestra puede variar de una muestra a otra porque depende de los elementos seleccionados en la muestra. Tomando en cuenta la variabilidad de muestra a muestra, se aprenderá a desarrollar la estimación del intervalo para la media poblacional. El intervalo construido tendrá una confianza especificada de la estimación correcta del valor del parámetro poblacional ?? . En otras palabras, existe una confianza especificada de que ?? se encuentre en algún lugar en el rango de números definidos por el intervalo.
En general, el nivel de confianza se simboliza con (1 – ??) · 100%, donde ?? es la proporción de las colas de la distribución que están fuera del intervalo de confianza. La proporción de la cola superior e inferior de la distribución es ??/2
Ejemplo ilustrativo Calcular la proporción de cola superior e inferior para un intervalo del 95% de confianza
Solución: ?????????? ???? ?????????????????? = (1 – ??) · 100%
Remplazando valores en la fórmula anterior del novel de confianza se obtiene: 95% = (1 – ??) · 100% ? 95% 100% = (1 – ??) ? ?? = 1 – 95% 100% ? ?? = 1 – 0,95 = 0,05 La proporción de la cola superior e inferior de la distribución es: ?? 0,05 = 2 2 = 0,025 Otra forma para calcular la proporción de la cola superior e inferior de la distribución es aplicando la siguiente fórmula:
?? 100% – ?????????? ???? ?????????????????? = 2 200 ?? 100% – 95% = 2 200 = 0,025
El siguiente gráfico ilustra lo calculado:
1) ESTIMACIÓN DEL INTERVALO DE CONFIANZA PARA LA MEDIA (? CONOCIDA) Se emplea la siguiente fórmula: ??¯ – ?? ?? v?? = ?? = ??¯ + ?? ?? v?? Donde: Z = valor crítico de la distribución normal estandarizada
Se llama valor crítico al valor de Z necesario para construir un intervalo de confianza para la distribución. El 95% de confianza corresponde a un valor ? de 0,05. El valor crítico Z correspondiente al área acumulativa de 0,975 es 1,96 porque hay 0,025 en la cola superior de la distribución y el área acumulativa menor a Z = 1,96 es 0,975.
Un nivel de confianza del 95% lleva a un valor Z de 1,96. El 99% de confianza corresponde a un valor ? de 0,01. El valor de Z es aproximadamente 2,58 porque el área de la cola alta es 0,005 y el área acumulativa menor a Z = 2,58 es 0,995.
Ejemplo ilustrativo
Si ??¯ = 24 ; ?? = 3 ?? ?? = 36 construya para la media poblacional ?? una estimación de intervalo de confianza del 95%
Solución: Realizando un gráfico ilustrativo en Winstats y Paint se obtiene:
Con lectura en la tabla de la distribución normal para un área de 0,025 se obtiene Z = -1,96. Por simetría se encuentra el otro valor Z = 1,96
Remplazando valores y realizando lo cálculos se obtiene: ?? ?? ??¯ – ?? = ?? = ??¯ + ?? v?? v?? 24 – 1,96 = ?? = 24 + 1,96 3 v36 3 v36 23,02 = ?? = 24,98
Los cálculos en Excel se muestran en la siguiente figura:
Interpretación: Existe un 95% de confianza de que la media poblacional se encuentre entre 23,02 y 24,98
En Geogebra se sigue los siguientes pasos: a) En Entrada, seleccione IntervaloZ[ < Muestra Media >, < s >, < Tamaño Muestra >, < Nivel > ] b) En < Muestra Media > escribir 24, en < s > escribir 3, en < Tamaño Muestra > escribir 24 , y en < Nivel > escribir 0,95. Enter O también
2) ESTIMACIÓN DE INTERVALO DE CONFIANZA PARA LA MEDIA (? DESCONOCIDA)
Así como la media poblacional ?? suele ser desconocida, rara vez se conoce la desviación estándar real de la población ??. Por lo tanto, se requiere desarrollar una estimación del intervalo de confianza de ?? usando sólo los estadísticos de muestra ??¯ y S.
Se emplea la siguiente fórmula: ??¯ – ????-1 ?? v?? = ?? = ??¯ + ????-1 ?? v?? Donde ????-1 es el valor crítico de la distribución t con n-1 grados de libertad para un área de ?/2 en la cola superior
La distribución t supone que la población está distribuida normalmente. Esta suposición es particularmente importante para n ? 30. Pero cuando la población es finita y el tamaño de la muestra constituye más del 5% de la población, se debe usar el factor finito de corrección para modificar las desviaciones estándar. Por lo tanto si cumple: ?? ?? Se aplica la ecuación · 100% > 5% ??¯ – ????-1 ?? ?? – ?? v v?? ?? – 1 = ?? = ??¯ + ????-1 ?? ?? – ?? v v?? ?? – 1 Siendo N el tamaño de la población y n el tamaño de la muestra
Antes de seguir continuando es necesario estudiar la distribución t de Student, por lo que a continuación se presenta una breve explicación de esta distribución.
Al comenzar el siglo XX, un especialista en Estadística de la Guinness Breweries en Irlanda llamado William S. Gosset deseaba hacer inferencias acerca de la media cuando la ?? fuera desconocida. Como a los empleados de Guinness no se les permitía publicar el trabajo de investigación bajo sus propios nombres, Gosset adoptó el seudónimo de "Student". La distribución que desarrolló se conoce como la distribución t de Student.
Si la variable aleatoria X se distribuye normalmente, entonces el siguiente estadístico tiene una distribución t con n – 1 grados de libertad. ?? = ??¯ – ?? ?? v?? Esta expresión tiene la misma forma que el estadístico Z en la ecuación para la distribución muestral de la media con la excepción de que S se usa para estimar la ?? desconocida.
Entre las principales propiedades de la distribución t se tiene:
En apariencia, la distribución t es muy similar a la distribución normal estandarizada. Ambas distribuciones tienen forma de campana. Sin embargo, la distribución t tiene mayor área en los extremos y menor en el centro, a diferencia de la distribución normal. Puesto que el valor de ?? es desconocido, y se emplea S para estimarlo, los valores t son más variables que los valores Z. Los grados de libertad n – 1 están directamente relacionados con el tamaño de la muestra n. A medida que el tamaño de la muestra y los grados de libertad se incrementan, S se vuelve una mejor estimación de ?? y la distribución t gradualmente se acerca a la distribución normal estandarizada hasta que ambas son virtualmente idénticas. Con una muestra de 120 o más, S estima ?? con la suficiente precisión como para que haya poca diferencia entre las distribuciones t y Z. Por esta razón, la mayoría de los especialistas en estadística usan Z en lugar de t cuando el tamaño de la muestra es igual o mayor de 30.
Como se estableció anteriormente, la distribución t supone que la variable aleatoria X se distribuye normalmente. En la práctica, sin embargo, mientras el tamaño de la muestra sea lo suficientemente grande y la población no sea muy sesgada, la distribución t servirá para estimar la media poblacional cuando ?? sea desconocida.
Los grados de libertad de esta distribución se calculan con la siguiente fórmula ?? – 1 Donde n = tamaño de la muestra
Ejemplo: Imagínese una clase con 40 sillas vacías, cada uno elige un asiento de los que están vacíos. Naturalmente el primer alumno podrá elegir de entre 40 sillas, el segundo de entre 39, y así el número irá disminuyendo hasta que llegue el último alumno. En este punto no hay otra elección (grado de libertad) y aquel último estudiante simplemente se sentará en la silla que queda. De este modo, los 40 alumnos tienen 39 o n-1 grados de libertad.
1 2 3 4 5 6 7 8 9 Para leer en la tabla de la distribución t se procede de la siguiente manera:
TABLA Nº 4 DISTRIBUCIÓN t DE STUDENT
Ejemplos: Para n-1 = 10 grados de libertad ??(?? > ??, ??????) = ??, ???? ??(?? < -??, ??????) = ??, ???? n-1 ?? 0,25 0,2 0,15 0,1 0,05 0,025 0,01 0,005 0,0005 1,0000 0,8165 0,7649 1,3764 1,0607 0,9785 1,9626 1,3862 1,2498 3,0777 6,3138 12,7062 31,8205 63,6567 636,6192 1,8856 2,9200 4,3027 6,9646 9,9248 31,5991 1,6377 2,3534 3,1824 4,5407 5,8409 12,9240 0,7407 0,7267 0,7176 0,7111 0,7064 0,7027 0,9410 0,9195 0,9057 0,8960 0,8889 0,8834 1,1896 1,1558 1,1342 1,1192 1,1081 1,0997 1,5332 2,1318 2,7764 3,7469 4,6041 1,4759 2,0150 2,5706 3,3649 4,0321 1,4398 1,9432 2,4469 3,1427 3,7074 1,4149 1,8946 2,3646 2,9980 3,4995 1,3968 1,8595 2,3060 2,8965 3,3554 1,3830 1,8331 2,2622 2,8214 3,2498 8,6103 6,8688 5,9588 5,4079 5,0413 4,7809 10 11 0,6998 0,6974 0,8791 0,8755 1,0931 1,0877 1,3722 1,8125 2,2281 2,7638 3,1693 1,3634 1,7959 2,2010 2,7181 3,1058 4,5869 4,4370 Usted encontrará los valores críticos de t para los grados de libertad adecuados en la tabla para la distribución t. Las columnas de la tabla representan el área de la cola superior de la distribución t. Cada fila representa el valor t determinado para cada grado de libertad específico. Por ejemplo, con 10 grados de libertad, si se quiere un nivel de confianza del 90%, se encuentra el valor t apropiado como se muestra en la tabla. El nivel de confianza del 90% significa que el 5% de los valores (un área de 0,05) se encuentran en cada extremo de la distribución. Buscando en la columna para un área de la cola superior y en la fila correspondiente a 10 grados de libertad, se obtiene un valor crítico para t de 1.812. Puesto que t es una distribución simétrica con una media 0, si el valor de la cola superior es +1.812, el valor para el área de la cola inferior (0,05 inferior) sería -1.812. Un valor t de -1.812 significa que la probabilidad de que t sea menor a -1.812, es 0,05, o 5% (vea la figura).
Ejemplos ilustrativos: 1) Determinar el valor crítico de t con lectura en la tabla, Excel y Winstats en cada una de las siguientes condiciones para 1 – ?? = 0,95 ; ?? = 13
Solución: Con lectura en la tabla ???? 1 – ?? = 0,95 ? ?? = 1 – 0,95 = 0,05
Para leer en la tabla se necesita calcular el área de una cola, la cual es: ?? 0,05 = 2 2 = 0,025 O también el área de una cola se calcula de la siguiente manera: ?? 1 – (1 – ??) ?? 1 – 0,95 = ? = 2 2 2 2 = 0,025 Calculando los grados de libertad se tiene: ?? – 1 = 13 – 1 = 12
1 2 3 4 5 6 7 8 9 TABLA Nº 4 DISTRIBUCIÓN t DE STUDENT
Ejemplos: Para n-1 = 10 grados de libertad ??(?? = ??, ??????) = ??, ???? ??(?? = -??, ??????) = ??, ???? n-1 ?? 0,25 0,2 0,15 0,1 0,05 0,025 0,01 0,005 0,0005 1,0000 0,8165 0,7649 1,3764 1,0607 0,9785 1,9626 1,3862 1,2498 3,0777 1,8856 1,6377 6,3138 12,7062 31,8205 63,6567 636,6192 2,9200 4,3027 6,9646 9,9248 31,5991 2,3534 3,1824 4,5407 5,8409 12,9240 0,7407 0,7267 0,7176 0,7111 0,7064 0,7027 0,9410 0,9195 0,9057 0,8960 0,8889 0,8834 1,1896 1,1558 1,1342 1,1192 1,1081 1,0997 1,5332 1,4759 1,4398 1,4149 1,3968 1,3830 2,1318 2,7764 3,7469 4,6041 2,0150 2,5706 3,3649 4,0321 1,9432 2,4469 3,1427 3,7074 1,8946 2,3646 2,9980 3,4995 1,8595 2,3060 2,8965 3,3554 1,8331 2,2622 2,8214 3,2498 8,6103 6,8688 5,9588 5,4079 5,0413 4,7809 10 11 12 13 0,6998 0,6974 0,6955 0,6938 0,8791 0,8755 0,8726 0,8702 1,0931 1,0877 1,0832 1,0795 1,3722 1,3634 1,3562 1,3502 1,8125 2,2281 2,7638 3,1693 1,7959 2,2010 2,7181 3,1058 1,7823 2,1788 2,6810 3,0545 1,7709 2,1604 2,6503 3,0123 4,5869 4,4370 4,3178 4,2208 En la tabla con 12 grados de libertad y 0,025 de área se obtiene un valor de t =2,1788, y por simetría es igual también a t = -2,1788
Para realizar los cálculos en Excel se procede de la siguiente manera:
a) Llenar los datos y hacer los cálculos del área de una cola y de los grados de libertad. Luego insertar función. En la casilla seleccionar una categoría, seleccionar Estadísticas. Seleccionar la función INV.T.
b) Clic en Aceptar. En la ventana Argumentos de la función, en Probabilidad seleccionar B3, y en Grados de libertad seleccionar B6. c) Clic en Aceptar. Los demás cálculos se muestran en la siguiente figura: Para resolver con Winstats se procede de la siguiente manera: a) Clic en Window y luego en Probability seleccionar Student t
b) Clic en Student t c) Maximizar la ventana de la distribución
d) Para cambiar el color del fondo, clic en Edit + Colors + Window background e) Clic Window background. En la venta de background seleccionar el color deseado, que este caso se seleccionó el color blanco. Luego clic en Close para cerrar la venta background.
f) Para editar lo grados de libertad, clic en Edit + Parameter…(Parámetros). Clic en Parámetros. En la casilla de la ventana input escribir 12. Clic en ok g) Para calcular el valor crítico de t, clic en Calc + Probabilities. En la ventana Student calculations, en significanse escribir 0,025 y luego clic en critical x. Clic en close para cerrar la ventana Student calculations.
h) Para escribir textos, clic en Btns. Luego clic derecho en cualquier parte de la ventana y aparece la ventana edit text. En la casilla de la ventana edit text escribir el texto deseado. i) Clic en ok de la ventana edit text. Luego arrastar con el mause el texto al lugar deseado En GeoGebra Seleccione DistribuciónTInversa[ , ]
1 2 3 4 5 6 7 8 9 2) Sea X = ??(10) hallar el valor de P(X = -1,3722) + P(X = 2,7638) con lectura en la tabla, Excel y Winstats
Solución: TABLA Nº 4 DISTRIBUCIÓN t DE STUDENT
Ejemplos: Para n-1 = 10 grados de libertad ??(?? = ??, ??????) = ??, ???? ??(?? = -??, ??????) = ??, ???? n-1 ?? 0,25 0,2 0,15 0,1 0,05 0,025 0,01 0,005 0,0005 1,0000 0,8165 0,7649 1,3764 1,0607 0,9785 1,9626 3,0777 1,3862 1,8856 1,2498 1,6377 6,3138 2,9200 2,3534 12,7062 31,8205 63,6567 636,6192 4,3027 6,9646 9,9248 31,5991 3,1824 4,5407 5,8409 12,9240 0,7407 0,7267 0,7176 0,7111 0,7064 0,7027 0,9410 0,9195 0,9057 0,8960 0,8889 0,8834 1,1896 1,5332 1,1558 1,4759 1,1342 1,4398 1,1192 1,4149 1,1081 1,3968 1,0997 1,3830 2,1318 2,0150 1,9432 1,8946 1,8595 1,8331 2,7764 3,7469 4,6041 2,5706 3,3649 4,0321 2,4469 3,1427 3,7074 2,3646 2,9980 3,4995 2,3060 2,8965 3,3554 2,2622 2,8214 3,2498 8,6103 6,8688 5,9588 5,4079 5,0413 4,7809 10 11 0,6998 0,6974 0,8791 0,8755 1,0931 1,3722 1,0877 1,3634 1,8125 1,7959 2,2281 2,7638 3,1693 2,2010 2,7181 3,1058 4,5869 4,4370 Con lectura en la tabla se obtiene: P(X = -1,3722) = 0,1 y P(X = 2,7638) = 0,01
Entonces: P(X?-1,3722) + P(X? 2,7638) = 0,1 + 0,01 = 0,11
Los cálculos en Excel se muestran en la siguiente figura:
El gráfico elaborado en Winstats y Paint se muestra en la siguiente figura:
3) Un fabricante de papel para computadora tiene un proceso de producción que opera continuamente a lo largo del turno. Se espera que el papel tenga una media de longitud de 11 pulgadas. De 500 hojas se selecciona una muestra de 29 hojas con una media de longitud del papel de 10,998 pulgadas y una desviación estándar de 0,02 pulgadas. Calcular la estimación del intervalo de confianza del 99% Solución: Los datos del problema son: ?? = 11 ?? = 500 ?? = 29 ??¯ = 10,998 ?? = 0,02 ?????????????????? = 99% Como en los datos aparece el tamaño de la población, se debe verificar si el tamaño de la nuestra es mayor que el 5% para emplear la fórmula con el factor finito de corrección. Se remplaza valores en la siguiente fórmula: ?? · 100% > 5% ?? 29 · 100% = 5,8% 500 Por lo tanto se debe utilizar la fórmula con el factor finito de corrección. Calculando la proporción de la cola superior e inferior de la distribución se obtiene: ?????????? ???? ?????????????????? = (1 – ??) · 100% ?? 100% – ?????????? ???? ?????????????????? = 2 200 ?? 100% – 99% = = 0,005 2 200 Calculando los grados de libertad se obtiene: ?? – 1 = 29 – 1 = 28
Con lectura en la tabla para un área de 0,005 y 28 grados de libertad se obtiene t = ±2,7633
Remplazando valores y realizando lo cálculos se obtiene: ??¯ – ????-1 ?? ?? – ?? v v?? ?? – 1 = ?? = ??¯ + ????-1 ?? ?? – ?? v v?? ?? – 1 10,998 – 2,7633 0,02 500 – 29 v v29 500 – 1 = ?? = 10,998 + 2,7633 0,02 500 – 29 v v29 500 – 1 10,988 = ?? = 11,008
Los cálculos en Excel se muestran en la siguiente figura:
Interpretación: Existe un 99% de confianza de que la media poblacional se encuentra entre 10,998 y 11,008
El gráfico elaborado en Winstats y Paint se muestra en la siguiente figura:
El gráfico elaborado en GeoGebra se muestra en la siguiente figura: