Resumen del libro de estadísticas de Berenson y Levine

Enviado por Hernan Torino

Indice1. Resumen Capítulo 1 del Libro 2. Resumen Capítulo 2 del Libro 3. Resumen Capítulo 3 del Libro 4. Resumen Capítulo 4 del Libro 5. Resumen Capítulo 5 del Libro 6. Capitulo 6 del libro 7. Capítulo 7 del libro 8. Capítulo 8 del libro 9. Capitulo 9 del libro 10. Capitulo 10 del libro 11. Hipótesis nula y alternativa 12. Capitulo 12 del libro 13. Capítulo 13 del libro 14. Capitulo 14 del libro 15. Capítulo 15 del libro 16. Aplicaciones estadísticas en administración de la calidad y productividad

1. Resumen Capítulo 1 del Libro

Estadística Descriptiva: Puede definirse como aquellos métodos que incluyen la recolección, presentación y caraterización de un conjunto de datos con el fin de describir apropiadamente las diversas características de ese conjunto.
Estadística Inferencial: Puede definirse como aquellos métodos que hacen posible la estimación de una característica de una población o la toma de una decisión referente a una población basándose sólo en los resultados de una muestra.

Para aclara este concepto se necesitan de las siguientes definiciones:

Población: es la totalidad de elementos o cosas bajo consideración.
Muestra: Es la porción de la población que se selecciona para su análisis.
Parámetro: Es una medida de resumen que se calcula para describir una característica de toda una población.
Estadística: Es una medida que se calcula para describir una característica de una sola muestra de la población.

Podemos encontrar dos tipos de estudios estadísticos que se emprenden: los estudios enumerativos y los estudios analíticos.

Los estudios enumerativos involucran la toma de decisiones respecto a una población y/o sus características. Los estudios analíticos involucran realizar alguna actividad sobre un proceso para mejorar el desempeño en el futuro. La atención de un estudio analítico está puesta sobre la predicción del comportamiento futuro de un proceso y sobre la comprensión y perfeccionamiento de ese proceso. En un estudio analítico no existe un universo identificable, como sucede en un estudio enumerativo y en consecuencia tampoco hay un marco.

2. Resumen Capítulo 2 del Libro

Recolección de Datos

La necesidad de datos: los datos se necesitan para:

Proporcionar la introducción imprescindible para un estudio de investigación.
Medir el desempeño en un servicio o proceso de producción en curso.
Ayudar en la formulación de cursos alternativos de acción en un proceso de toma de decisiones.
Satisfacer nuestra curiosidad.

¿Que es un dato? Los datos pueden concebirse como información numérica necesaria para ayudarnos a tomar una decisión con más bases en una situación particular.

¿Cómo obtenemos los datos? Existen muchos métodos mediante los cuales podemos obtener los datos necesarios. Primero, podemos buscar datos ya publicados por fuentes gubernamentales, industriales o individuales. Segundo, podemos diseñar un experimento. En tercer lugar, podemos conducir un estudio. Cuarto, podemos hacer observaciones del comportamiento, actitudes u opiniones de los individuos en los que estamos interesados.

Utilización de fuentes de datos publicadas

Sin importar la fuente utilizada, se hace una distinción entre el recolector original de los datos y la organización o individuos que compilan éstos en tablas y diagramas. El recolector de datos es la fuente primaria; el compilador de los datos es la fuente secundaria.

Diseño de un experimento En un experimento se ejerce control sobre el tratamiento de los dado a los participantes.

Conducción de una encuesta Aquí no se ejerce ningún control sobre el comportamiento de la gente encuestada. Simplemente se formulan preguntas respecto a sus opiniones, actitudes, comportamiento y otras características.

Realización de un estudio observacional El investigador observa el comportamiento de interés directamente, por lo común en su entorno natural. La importancia de obtener buenos datos: GIGO GIGO: Entra Basura, sale basura. No importa el método utilizado para obtener los datos, si un estudio ha de ser útil, si el desempeño debe controlarse apropiadamente o si el proceso de la toma de decisiones debe ampliarse, los datos recabados deben ser válidos: es decir, las respuestas correctas deben valorarse de manera que se obtengan mediciones significativas.

Obtención de datos mediante investigación de encuesta Tipos de datos Existen básicamente dos tipos de variables aleatorias que producen dos tipos de datos: categóricas y numéricas. Las variables aleatorias categóricas producen respuestas categóricas, mientras que las variables numéricas producen respuestas numéricas. Las variables numéricas pueden considerarse como discretas o continuas. Los datos discretos son respuestas numéricas que surgen de un proceso de conteo, mientras que los datos continuos son respuestas numéricas que surgen de un proceso de medición. La necesidad de definiciones operacionales. Una definición operacional proporciona un significado a un concepto o variable que puede comunicarse a otros individuos. Es algo que tiene el mismo significado ayer, hoy y mañana para todos los individuos.

Diseño del cuestionario El objetivo de un cuestionario es permitirnos recabar información significativa que nos ayude en el proceso de toma de decisiones.

Selección de temas amplios – Longitud del cuestionario

Los amplios temas de los cuestionarios deben enumerarse. Mientras más largo sea el cuestionario, menor será el cociente de respuesta. Por tanto, se deben evaluar cuidadosamente las preguntas. Las preguntas deben ser lo más cortos posibles.

Modo de Respuesta

Existen tres modos mediante los cuales se realiza el trabajo de encuesta: la entrevista persona, telefónica y por medio del correo. La personal es la que tiene una tasa de respuesta mayor, pero es más costosa.

Formulación de preguntas

Cada pregunta debe presentarse claramente en el menor número de palabras y cada pregunta debe considerarse esencial para la encuesta. Además, deben ser libres de ambigüedades.

Prueba del cuestionario

Una vez analizadas los pros y contras de cada pregunta se debe realizar una prueba piloto de manera que puedan examinarse en cuanto a claridad y longitud.

Elección del tamaño de muestra para la encuesta Existen tres razones para extraer una muestra. Antes que todo, por lo general lleva demasiado tiempo realizar un censo completo. En segundo lugar, es demasiado costoso hacer un censo completo. Tercero, es demasiado molesto e ineficiente obtener un conteo completo de la población objeto

Selección de los sujetos respondientes: tipos de muestras Existen básicamente dos tipos de muestras: las muestra no probabilística y la muestra de probabilidad. Una muestra de probabilidad es aquella en la que los sujetos de la muestra se eligen sobre la base de probabilidades conocidas. En una muestra aleatoria simple cada individuo o elemento tiene la misma oportunidad de selección que cualquier otro, y la selección de un individuo o elemento particular no afecta la probabilidad de que se elija cualquier otro.

Extracción de la muestra aleatoria simple La clave de la selección de muestras apropiada es obtener y mantener una lista actualizada de todos los individuos o elementos de los cuales se extraerá la muestra. Tal lista se conoce como el marco de la población. Este listado de población servirá como la población objetivo, de tal manera que si se extrajeran muchas muestrasde probabilidades diferentes de tal lista, en el mejor de los casos cada muestra sería una representación de la población.

– Muestreo con o sin reemplazo de poblaciones finitas Para seleccionar la muestra pueden usarse dos métodos básicos: con reemplazo o sin reemplazo. Digamos que N representa la población y n la muestra. Al extraer con reemplazo la probabilidad de cualquier miembro de la población de ser seleccionado en la primera extracción es 1/N. La probabilidad de ser seleccionado en otra extracción sigue siendo 1/N debido a que una vez registrado el dato, el individuo seguirá formando parte de la población. Sin embargo, al muestrear poblaciones humanas generalmente se considera más apropiado tener una muestra de persona diferentes que permitir mediciones repetidas de la misma persona. La probabilidad en este caso es 1/N en la primera extracción. La probabilidad de que cualquier individuo no seleccionado previamente sea seleccionado en la segunda extracción es 1/N-1.

La encuesta de la muestra El primer pasa para evaluar una encuesta es determinar si se basó en una muestra de probabilidad o en una no probabilístico. Aun cuando las encuestas emplean métodos de muestreo de probabilidad aleatorios, están sujetas a errores potenciales. Existen cuatro tipo de errores de encuesta: 1 – Error de cobertura o sesgo de selección. Este error resulta de la exclusión de ciertos sujetos del listado de población, de tal manera que no tienen oportunidad de ser seleccionados en la muestra. El error de cobertura provoca el sesgo de selección. 2- Error de no-respuesta o sesgo de no-respuesta. El error de no-respuesta resulta del fracaso de recolectar datos sobre todos los sujetos de la muestra. Y el error de no-respuesta da como resultado el sesgo de no-respuesta. 3- Error de Muestreo. Este error refleja la heterogeneidad o las diferencias de oportunidad de muestra a muestra basándose en la probabilidad de los sujetos que están siendo seleccionados en las muestras particulares. El error de muestreo puede reducirse tomando tamaños de muestra mayores, aunque esto incrementará el costo de aplicación de la encuesta. 4- Error de Medición. Este error se refiere a inexactitudes en las respuestas registradas que ocurren debido a una mala formulación de las preguntas, el efecto de un entrevistados sobre el encuestado o el esfuerzo hecho por el encuestado.

Organización y Resumen de Datos Organizacion, Resumen Y Presentacion De Datos Estadisticos Conceptos que deben reforzarse

POBLACION: es el conjunto formado por todas las unidades elementales que proporcionarán las mediciones de interés. Pueden ser personas, cosas, objetos abstractos. CENSO: Cuando se estudia la totalidad de las unidades elementales que componen la población. Desventaja: errores de observación. Ej.: omisiones, duplicaciones, no-ubicación (no medibles) del encuestado, volumen de información MUESTRA: se estudia una parte representativa de la población Desventaja: errores de observación (no medibles) errores de estimación (medible, cuantificable) LOS DATOS ESTADISTICOS SON VARIABLES, SU RESULTADO VARIA DE UNA MEDICION A OTRA. Debido a ello a los datos estadísticos los denominamos VARIABLES. Según se vio, las Variables se clasifican en: Categóricas Ordinales o Nominales Y Numéricas Discretas o Contínuas. Caso Sr. Juárez

Problema: " Aumento en el índice de rotación de cobranzas".
Población: Todos los clientes que compran a crédito al señor Juárez en el local A o B.
Supuestos: – Dos Locales A y B.
Datos del último mes.
Muestra Local A: 60 clientes; Local B: 78 clientes.
Hipótesis de Trabajo:
Deudores del local A necesitan menos tiempo para pagar.
Situación económica de los clientes peor þ nosotros > plazo de financiación.
Locales poseen precios > competencia.
Mal sistema de cobros en cuenta corriente.

Para Cada hipótesis se debe tomar una variable a analizar.

Variable a Utilizar en nuestro Caso: " Cantidad de días transcurridos entre la confección de la factura y el efectivo cobro de la misma.
Definiciones operacionales:

N= Tamaño de la población. n= Tamaño de la muestra. Yi = Variable a analizar

El tamaño de muestra es independiente del tamaño de la población.

Distribución de frecuencia:

fi: frecuencia absoluta. Fi: frecuencia absoluta acumulada. hi: frecuencia relativa ( cociente entre frecuencia absoluta y la muestra/población ). Hi: frecuencia relativa acumulada. El 21,7 % de los clientes del local A pagan el día 20. En el local minorista hay pocos que pagan los primeros días y pocos los que pagan el último día.

Para comparar se trabaja con frecuencias relativas (cuando los tamaños de muestra son distintos). 23/03/01 Práctico Ejercicio 2.35 – Página 49 n = 1425 Objetivo: " Medir el grado de satisfacción de los clientes que compraron una videograbadora en los últimos 12 meses.

Población: Todos los clientes que compraron una videograbadora en los últimos 12 meses.
Preguntas cualitativas:

¿Qué le pareció el producto?
– Excelente.
– Muy Bueno.
– Bueno.
– Malo.
– Si.
– No.
Recomendaría el Producto.
Compraría nuestra marca o producto.

Preguntas Cuantitativas.

¿ Cuantas veces usó el servicio técnico?

Ninguna.
Una.
Dos.
Más de dos.

Diseño y funcionamiento. Califique de uno a diez
¿ Cuántas marcas analizó antes de decidir por Xenith?
¿Cuántos productos Xenith posee Ud.?

Ejercicio 3.8 – Pagina 61

b) Diagrama de Tallo y Hoja SPSS lo hace en forma automática.

Yi= Segundos que tarda un automóvil de llegar de 0 a 60 Mph.

Autos Alemanes

Tallo	Hoja
4	9
5	5	4	1
6	4	9	4	7	0	9
7	9	1	5
8	6	7	3	5	5	8	9
9
10	0	9

27/03/01

Construcción de Gráficos

Nombrar los ejes.
Título del gráfico.
Fuente de datos.

Ejercicio 3.70 – Pagina 95

Yi	fi	hi	Fi	Hi

1,00	1	0,03	1	0,03
1,50	2	0,07	3	0,10
2,00	3	0,10	6	0,20
2,50	2	0,07	8	0,27
3,00	6	0,20	14	0,47
3,50	5	0,17	19	0,63
4,00	2	0,07	21	0,70
4,50	2	0,07	23	0,77
5,00	3	0,10	26	0,87
5,50	1	0,03	27	0,90
6,00	1	0,03	28	0,93
6,50	1	0,03	29	0,97
7,00	1	0,03	30	1,00
	30	1,00

Yi = $ de cada manómetro.

fi = cantidad de veces que se repite la variable.

En este caso se supone que la variable es discreta. Construcción de Intervalos

Intervalos sirve en especial para variables continuas Ry = Y max – Y min = Recorrido = Amplitud = Rango Ry = 7.5 – 1 = 6.5

Cantidad de intervalos 4 C= Amplitud del intervalo = Ry / Cantidad de intervalos = 6.5/4 = 1.625 C = Valor entero = 2 Ry* = c x cantidad de intervalos = 2 x 4 = 8

Yi-1 – Yi	Yi	fi	hi

1 – 3	2	8	0.27
3 – 5	4	15	0.50
5 – 7	6	6	0.20
7 -9	8	1	0.03
		30	1

Construcción del intervalo del Caso Juárez. R = 38 – 14 = 24 Cantidad de Intervalos = 7 Amplitud = Ry / c = 3.43 = 4

3. Resumen Capítulo 3 del Libro

Presentación de datos numéricos en tablas y diagramas Una distribución de frecuencia es una tabla de resumen en la que los datos se disponen en agrupamientos o categorías convenientemente establecidas de clases ordenadas numéricamente. En esta forma las características más importantes de los datos se aproximan muy fácilmente, compensando así el hecho de que cuando los datos se agrupan de ese modo, la información inicial referente a las observaciones individuales de que antes se disponía se pierde a través del proceso de agrupamiento o condensación.

Al construir la tabla de frecuencia-distribución, debe ponerse atención a:

Seleccionar el número apropiado de agrupamientos de clase para la tabla.
Obtener un intervalo o ancho de clase de cada agrupamiento de clase.
Establecer los límites de cada agrupamiento de clase para evitar los traslapes.

Selección del Número de Clases La distribución de frecuencia debe tener al menos cinco agrupamiento de clase, pero no más de 15. Si no hay suficientes agrupamientos de clase o si hay demasiados, se obtendrá poca información.

Obtención de los intervalos de clase Ancho del intervalo Rango

número de agrupamientos de clase deseado

La principal ventaja de usar una de estas tablas de resumen es que las principales características de los datos se hacen evidentes inmediatamente para el lector. La principal desventaja de tal tabla de resumen es que no podemos saber como se distribuyen los valores individuales dentro de un intervalo de clase particular sin tener acceso a los datos originales. El punto medio de la clase, sin embargo, es el valor usado para representar todos los datos resumidos en un intervalo particular. El punto medio de una clase (o marca de clase) es el punto a la mitad de los límites de cada clase y es representativo de los datos de esa clase.

Tabulación de datos numéricos: la distribución de frecuencia relativa y distribución de porcentaje La distribución relativa de frecuencia se forma dividiendo las frecuencias de cada clase de distribución de frecuencia entre el número total de observaciones. Entonces puede formarse una distribución de porcentaje multiplicando cada frecuencia relativa o proporción entre 100. La distribución de frecuencia relativa o la distribución de porcentaje se vuelve esencial siempre que una serie de datos se compara con otra seria de datos, especialmente si difiere el número de observaciones en cada serie de datos.

Graficación de datos numéricos: el histograma y el polígono Histogramas Los histogramas son diagramas de barras verticales en los que se construyen barras rectangulares en los límites de cada clase. La variable aleatoria o fenómeno de interés se despliega a lo largo del eje horizontal; el eje vertical representa el número, proporción o porcentaje de observaciones por intervalo de clase, dependiendo de si el histograma particular, es un histograma de frecuencia, un histograma de frecuencia relativa o histograma de porcentaje

Al comparar dos o más series de datos, ni los diagramas de tallo y hoja ni los histogramas pueden construirse en la misma gráfica. Con respecto a estos últimos, la sobreposición de barras verticales de uno en el otro ocasionaría dificultades de interpretación; en estos casos se usan los polígonos.

Polígonos El polígono de porcentaje se forma permitiendo que el punto medio de cada clase represente los datos de esa clase y luego conectando la sucesión de puntos medios con sus respectivos porcentajes de clase.

Distribuciones acumulativas y polígonos acumulativos Una tabla de distribución de porcentaje acumulativo se construye registrando primero los límites inferiores de cada clase a partir de la distribución de porcentaje y luego insertando un límite extra al final.

Polígono de porcentaje acumulativo Para construir un polígono de porcentaje acumulativo (también llamado ojiva), el fenómeno se grafica en el eje horizontal, mientras que los porcentajes acumulativos se grafican en el eje vertical.

4. Resumen Capítulo 4 del Libro

Resumen y descripción de los datos numéricos Propiedades de los datos numéricos. Las tres mejores propiedades que describe una serie numérica de datos son:

Tendencia central
Variación
Forma

Si estas mediciones se calculan a partir de una muestra, se denominan estadísticas, si se calculan a partir de los datos de una población se denominan parámetros.

Mediciones de tendencia Central

La media aritmética, es el promedio. Se calcula sumando todas las observaciones y luego dividiendo el total entre el número de elementos involucrados.

La media actúa como punto de equilibrio de tal forma que las observaciones menores compensan a las observaciones que son mayores.

La media aritmética se ve afectada en gran medida por valores extremos.

La mediana. Es el valor medio de una secuencia ordenada de datos. Si no hay empates, la mitad de las observaciones serán menores y la otra mitad serán mayores. La mediana no se ve afectada por valores extremos. Para calcular la mediana, primero se deben poner los datos en orden. Después usamos la fórmula del punto de posicionamiento.

El cálculo del valor de la media se ve afectado por el número de observaciones, no por la magnitud de cualquier extremo.

La moda. Es el valor de una serie de datos que aparece con más frecuencia. La moda no se ve afectada por la ocurrencia de cualquier valor extremo.
Cuartiles. Los cuartiles sonmediciones descriptivas que dividen los datos ordenados en cuatro cuartos.

Mediciones de la Variación La variación es la cantidad de dispersión o propagación en los datos.

El rango: es la diferencia entre la mayor y la menor observación en una serie de datos. El rango mide la propagación total en la serie de datos. La debilidad del rango es que no logra tomar en cuenta la forma en que los datos se distribuyen realmente entre el mayor y el menor valor. Sería impropio usar el rango como una medición cuando uno de o ambos componentes son observaciones extremas.
El rango intercuartil: es la diferencia entre el tercer y primer cuartil. No se ve influida por valores extremos.
La varianza y la desviación estándar: a diferencia de las mediciones anteriores la varianza y la desviación estándar toman en cuenta como se distribuyen las observaciones. La Varianza de muestra es el promedio de las diferencias cuadradas entre cada una de las observaciones de una serie de datos y la media. La desviación estándar es simplemente la raíz cuadrada de la varianza. La varianza y la desviación miden la dispersión promedio alrededor de la media, es decir, como las observaciones mayores fluctúan por encima de ésta y como las observaciones menores se distribuyen por debajo de ésta.
El Coeficiente de Variación: es una medida relativa de variación. Se expresa como porcentaje antes que en términos de las unidades de los datos particulares. Mide la dispersión en los datos relativa a la media.

El coeficiente de variación es útil al comparar la variabilidad de dos o más series de datos que se expresan en distintas unidades de medición.

Forma Para describir la forma sólo necesitamos comparar la media y la mediana. Si estas dos mediciones son iguales, por lo general podemos considerar que los datos son simétricos. Si la media excede a la mediana, los datos pueden describirse de sesgo positivo o sesgadas a la derecha. Si la media es excedida por la mediana, estos datos pueden llamarse de sesgo negativo o sesgadas a la izquierda. El sesgo positivo surge cuando la media se incrementa en algunos valores inusualmente altos, el sesgo negativo ocurre cuando la media se reduce en algunos valores extremadamente bajos.

Cálculo de mediciones descriptivas de resumen de una población Las mediciones de tendencia central para una población se calculan igual que en la muestra simplemente reemplazamos n por N. El rango y el rango intercuartil para una población de tamaño N se obtienen como si fuera una muestra reemplazando n por N. La varianza se calcula reemplazando el ( n – 1 ) del denominador por N.

Uso de la Desviación Estándar: La regla Empírica En series de datos simétricos, donde la mediana y la media son iguales, las observaciones tienden a distribuirse igualmente alrededor de estas mediciones de tendencia central. Cuando el sesgado extremo no se presenta y tal agrupamiento se observa en una serie de datos, podemos usar la denominada regla empírica para examinar la propiedad de variabilidad de datos y obtener una mejor idea de lo que la desviación estándar está midiendo.

La regla empírica establece que en la mayoría de las series de datos encontraremos que aproximadamente dos de cada tres observaciones (es decir, el 67%), están contenidas en una distancia de una desviación estándar alrededor de la media y aproximadamente 90% a 95% de las observaciones están contenidas a una distancia de 2 desviaciones estándar alrededor de la media.

Uso de la desviación estándar: La regla de Bienaymé Chebyshev

No importa como se distribuyen los datos. el porcentaje de las distribuciones están contenidas dentro de las dsitancias de k desviaciones estándar alrededor de la media debe ser al menos

1 – 1 / k2

Al menos 75% de las observaciones deben estar contenidas dentro de distancias de +/-2 desviaciones estándar alrededor de la media. Al menos 88,89% de las observaciones deben estar contenidas dentro de una distancia de +/-3 desviaciones estándar alrededor de la media. Al menos 93.75% de las observaciones deben estar contenidas dentro de distancias de +/-4 desviaciones estándar alrededor de la media.

5. Resumen Capítulo 5 del Libro

Presentación de datos categóricos en tablas y diagramas

Graficación de datos categóricos: de barras, de pastel y de punto

Gráfica de barras

En la gráfica de barras, cada categoría se describe mediante una barra, cuya longitud representa la frecuencia o porcentaje de observaciones que caen en una categoría. Para construir una gráfica de barras se hacen las siguientes sugerencias:

Las barras deben construirse horizontalmente.
Todas las barras deben tener el mismo ancho.
Los espacios entre las barras deben variar entre la mitad
del ancho de una barra hasta el ancho de una barra.
Las escalas y guías son auxiliares útiles en la lectura
de una gráfica y deben incluirse. El punto cero u origen debe indicarse.
Los ejes deben etiquetarse.

Gráfica de Pastel
Gráfica de Puntos

Graficación de datos categóricos: el Diagrama de Pareto. El diagrama de Pareto es un tipo especial de gráfica de barras verticales en la que las respuestas categórizadas se grafican en el orden de rango descendiente de sus frecuencias y se combinan con un polígono acumulativo en la misma escala. El principio básico detrás de este dispositivo gráfico es su capacidad de distinguir los "pocos vitales" de los "muchos triviales".

Tabulación de datos categóricos: Tabla de contingencias y supertablas. Las tablas de contingencia se usan para examinar las respuestas a dos variables categóricas simultáneamente. Supertablas. Una supertabla es esencialmente una colección de tablas de contingencia, cada una con las mismas variables y categorías de columna. Sin embargo, se incluyen tantas variables de fila como se deseen para comparaciones frente a la variable de columna.

Tipos de Gráficos Medidas Estadísticas. Medidas Estadísticas descriptivas.

Variables Numéricas:
Medidas de posición.
Media.
Mediana.
Moda.
Cuartiles.
Medidas de Variación.
Rango.
Rango Medio.
Varianza.
Desvío Estándar.
Coeficiente de variación.

6. Capitulo 6 del libro

Probabilidad Básica La probabilidad es la posibilidad u oportunidad de que suceda un evento particular. La probabilidad involucrada es una porción o fracción cuyo valor varía entre cero y uno exclusivamente. Observamos un evento que no tiene posibilidad de ocurrir (es decir, el evento nulo), tiene una probabilidad de cero, mientras que un evento que seguramente ocurrirá (es decir, el evento cierto), tiene una probabilidad de uno. Ejemplo:

La posibilidad de sacar una carta con figura negra de una baraja.
La posibilidad de que un individuo seleccionado aleatoriamente de una encuesta este de acuerdo con X tema.
La posibilidad que tenga éxito un nuevo producto en el mercado.

Cada uno de los ejemplos anteriores se refiere a uno de los tres planteamientos del tema de la probabilidad. El primero a menudo se denominacom el planteamiento de la probabilidad clásica a priori. Aquí la probabilidad de éxito se basa en el conocimiento nterior del proceso involucrado. En el caso más simple, cuando cada resultado es igualmente posible. Esta posibilidad puede definirse de la siguiente manera: En el segundo ejemplo; llamado probabilidad clásica empírica, aunque la probabilidad se sigue definiendo como la proporción entre el número de resultados favorables y el número total de resultados, estos resultados se basan en datos observados, no en el conocimiento anterior a un proceso.

El tercer planteamiento de probabilidad se denomina el enfoque de probabilidad subjetiva. Mientras que en los dos anteriores enfoques la probabilidad de un evento favorable se calculaba objetivamente, ya fuera de un conocimiento previo o de datos reales, la probabilidad subjetiva se refiere a la posibilidad de ocurrencia asignada a un evento por un individuo particular. La probabilidad subjetiva es especialmetne útil para la toma de decisiones en aquellas situaciones en que la probabilidad de diversos eventos no puede determinarse empíricamente.

Conceptos de probabilidad básica Espacios de muestra y eventos Los elementos básicos de la teoría de probabilidades son los resultados del proceso o fenómeno bajo estudio. Cada tipo posible de ocurrencia se denomina un evento.

Un evento simple puede puede describirse mediante una característica sencilla. la compilación de todos los eventos posibles se llama el espacio muestral. La manera en que se subdivide el espacioi muestral depende de los tipos de probabilidades que se han de determinar. Tomando esto en cuenta, resulta de interés definir tanto el complemento de un evento como un evento conjunto de la siguiente manera: La complemento del evento A incluye todos los elementos que no son parte del evento A. Esta dado por el símbolo A´. Un evento conjunto es un evento que tiene dos o más características.

Tablas de Contingencias y diagramas de Venn

Existen varias formas en las que puede verse un espacio muestral particular. El primer método implica asignar los eventos apropiados a una tabla de clasificaciones cruzadas. Tal tabla también se denomina tabla de contingencia.

	Roja	Negro	Totales
As	2	2	4
No As	24	24	48
Totales	26	26	52

La segunda forma de presentar el espacio muestral es usando un diagrama de Venn. Este diagrama se representa gráficamente los diversos eventos como "uniones" e "intersecciones" de círculos.

El área contenida dentro del círculo A y de círculo B (área central) es la intersección de de Ay B (y se escribe A Ç B) , puesto que esta área es parte de A y tambien parte de B. El área total de los dos círculos es la unión de A y B (y se escribe A È B ) y contiene todos los resultados que son parte del evento A, parte del evento B o parte de ambos A y B. El área fuera del diagrama fuera de A È B contiene aquelloos resultados que no sonparte de A ni son parte de B.

Probabilidad ( marginal ) simple

La regla mas evidente para las probabilidades es que deben variar en valor de 0 a 1. Un evento imposible tiene una probabilidad cero de ocurrir, y un evento cierto tiene una probabilidad uno de ocurrir. La probabilidad simple se refiere a la probabilidad de ocurrencia de un evento simple.

Ejemplo:

la probabilidad de seleccionar una carta negra;
la probabilidad de seleccionar un As

La probabilidad simple se denomina probabilidad marginal puesto que el número total de éxitos puede obtenerse del márgen apropiado de la table de contingencias.

Probabilidad Conjunta

La probabilidad conjunta se refiere a fenómenos que contienen dos o mas eventos, como la probabilidad de un as negro, una reina roja o un empleado que este satisfecho con el trabajo y haya progresado dentro de la organización.

P (A)= P ( A y B1 ) + P ( A y B2 ) + …..+ P ( A y Bk )

donde B1, B2, … Bk son eventos mutuamente excluyentes y colectivamente exhaustivos.

Dos eventos son mutuamente excluyentes si ambos eventos no pueden ocurrir al mismo tiempo.

Dos eventos son colectivamente exhaustivos si uno de los eventos debe ocurrir.

Por ejemplo, ser hombre y ser mujer son eventos mutuamente excluyentes y colectivamente exhaustivos. Nadie es ambos ( son mutuamente excluyentes ) y todos son uno u otro ( son colectivamente exhaustivos ).

Regla de la adición

La regla de la adición se usa para encontrar la probabilidad del evento A o B. Esta regla para obtener la probabilidad de la unión de A y B considera la ocurrencia del evento A o del evento B o de ambos, A y B.

El cálculo de P ( A È B ), la probabilidad del evento A o B, puede expresarse en la siguiente regla de la adición general:

P ( A È B ) = P ( A o B ) = P ( A ) + P ( B ) – P ( A y B )

Eventos mutuamente excluyentes

En ciertas circunstancias, sin embargo, la probabilidad conjunta no necesita restarse porque es igual a cero. Tales circunstancias cuando no existen resultados para un evento particular. Por ejemplo, suponga que deseamos saber la probabilidad de escoger un corazon o una espada si estuviéramos seleccionando sólo una carta de una baraja estándar de 52 cartas de juego. Usando la regla de la adición, tenemos lo siguiente:

P ( corazón o espada ) = P ( corazón ) + P ( espada ) – P ( corazón y espada )

P = 13/52 + 13/52 – 0/52 = 26/52

La intersección en este caso no existe ( llamado el conjunto nulo ) porque no contiene resultados, puesto que una carta no puede ser corazón y espada simultáneamente.

Siempre que la probabilidad conjunta no contenga ningún resultado, los eventos involucrados se consideran mutuamente excluyentes. Asi la regla general para eventos mutuamente excluyentes se reduce a:

P ( A o B ) = P ( A ) + P ( B )

Eventos colectivamente exhaustivos

Consideremos la probabilidad de seleccionar una carta negra o rojo. Puesto que son mutuamente excluyentes al usar la ecuación: 26/52 + 26/52 = 1

La probabilidad de rojo o negro suma uno. Dado que uno de los eventos debe ocurrir se consideran mutuamente excluyentes.

Probabilidad Condicional.

Cuando estamos calculando la probabilidad de un evento particular A, dada información sobre la ocurrencia de otro evento B, esta probabilidad se denomina probabilidad condicional, P ( A B ). La probabilidad condicional P ( A B ) puede definirse de la siguiente manera:

P ( A B ) = P ( A y B )

P ( B )

Independencia estadística Se dice que dos eventos independientes si el conocimiento previo de la probabilidad de ocurrencia de uno de ellos no afecta la probabilidad del otro. Puede definirse de la siguiente manera:

P ( A B ) = P ( A )

Regla de multiplicación

La fórmula para la probabilidad condicional puede manipularse algebraicamente de forma tal que la probabilidad conjunta P ( A y B ) puede determinarse a partir de la probabilidad condicional de un evento.

La regla de multiplicación para eventos independientes puede expresarse de la siguiente manera sustituyendo P ( A ) por P ( A B ):

P ( A y B ) = P ( A ) * P ( B )

Si esta regla se cumple para dos eventos, A y B entonces A y B son estadísticamente independientes. Por tanto, hay dos formas de determinar la independencia estadística:.

Los eventos A y B son estadísiticamente independientes si y sólo si P ( A B )=P (A)
Los eventos A y B son estadísticamente independientes si y sólo si P ( A y B ) = P ( A ) * P ( B ).

Teorema de Bayes La probabilidad condicional toma en cuenta información respecto a la ocurrencia de un evento para encontrar la probabilidad de otro evento. Este concepto puede ampliarse para revisar probabilidaddes basadas en nueva información y, así determinar la probabilidad que un efecto particular se deba a una causa específica. El procedimiento para revisar estas probabilidades se conoce como teorema de Bayes.

El teorema de Bayes puede definirse a partir de las definiciones de probabilidad condicional y probabilidad marginal, asi el teorema de Bayes es:

P ( Bi A ) = P ( A Bi ) P ( Bi )

P ( A B1 ) P ( B1 ) + P ( A B2 ) P ( B2 )

7. Capítulo 7 del libro

Algunas distribuciones importantes de probabilidad discreta

Una distribución de probabilidad para una variable aleatoria discreta es un listado mutuamente excluyente de todos los resultadosposibles para esa variable aleatoria, tal que una probabilidad particular de ocurrencia esté asociada con cada resultado.

Esperanza Matemática La media de una distribución de probabilidad es el valor esperado de su variable aleatoria. El valor esperado de una variable aleatoria discreta puede considerarse como su promedio pesadoo sobre todos los resultados posibles, siendo los pesos la probabilidad asociada con cada uno de los resultados.

Esta medición de resumen puede puede obtenerse multiplicando cada resultado posible Xi, por su probabilidad correspondiente P (Xi) y luego sumando los productos resultantes. Por tanto, el valor esperado de la variable aleatoria discreta X, simbolizado como E (X), puede expresarse de la siguiente manera: E(X)= ∑ Xi * P ( Xi)

Varianza y desviación estándar de una variable aleatoria discreta La varianza de una variable aleatoria discreta puede definirse como el promedio pesado de las diferencias cuadradas entre cada resultado posible y su media, siendo los pesos las probabilidades de cada uno de los resultados respectivos.

Esta medición de resumen puede obtenerse multiplicando cada diferencia cuadrada posible ( Xi – μ )2 por su probabilidad correspondiente P (Xi) y luego sumando los productos restantes. Por lo tanto la varianza de la variable aleatoria discreta X puede expresarse de la siguiente manera:

( Xi – μ )2 * P (Xi)

Funciones de distribución de probabilidad discreta La distribución de probabilidad para una variable aleatoria discreta puede ser:

Un listado teórico de resultados y probabilidades que pueden obtenerse de un modelo matemático que represente algún fenómeno de interés.
Un listado empírico de resultados y sus frecuencias relativas observadas.
Un listado subjetivo de resultados asociados con sus probabilidades subjetivas que representan el grado de convicción del tomador de decisiones respecto a la probabilidad de los resultados posibles.

Un modelo se considera una representación en miniatura de algún fenómeno subyacente. En particular, un modelo matemático es una expresión matemática que representa cierto fenómeno subyacente. Para variables aleatorias discretas, esta expresión matemática se conoce como función de distribución de probabilidad.

La característica escencial de la distribución uniforme es que es igualmente posible que ocurran todos los resultados de la variable aleatoria.

Distribución Binomial

La distribución binomial es una distribución de probabilidad discreta que es extremadamente útil para describir muchos fenómenos.

La distribución binomial posee cuatro propiedades esenciales:

Las observaciones posibles pueden obtenerse mediante dos métodos de muestreo distintos. Cada observación puede considerarse como seleccionada de una población infinita sin reemplazo o de una población finita con reemplazo.
Cada observación puede clasificarse en dos categorías mutuamente excluyentes y colectivamente exhaustivas, usualmente denominadas éxito y fracaso.
La probabilidad de que una observación se clasifique como éxito, p, es constante de observación a observación.
El resultado de cualquier observación es independiente del resultado de cualquier observación.

Modelo matemático

P( X= x n, p ) = n ! px ( 1 – p ) n-x

X ! ( n – x ) !

La primera parte de la fórmula nos dice cuántas secuencias de arreglos de los x éxitos de n observaciones son posibles. La segunda parte nos dice la probabilidad de obtener exactamente x éxitos de n observaciones en una secuencia particular.

Características de la distribución binomial

Forma. Siempre que p= 0.5 la distribución binomial será simétrica sin importar que tan grande o pequeño sea el valor de n. Sin embargo, cuando p ≠ 0.5 la distribución será sesgada. Mientras más cercana este p de 0.5 y mayor sea el número de observaciones, n, menos sesgada será la distribución. Con una p pequeña la distribución estara sesgada a la derecha. Para p muy grandes, la distribución sería sesgada a la izquierda.
La media. La media de la distribución binomial puede obtenerse fácilmente como el producto de sus parámetros, n y p.
La desviación estándar. La desviación estándar se calcula usando la siguiente fórmula:

Distribución de Poisson.

La distribución de Poisson es otra función de distribución de probabilidad que tiene muchas aplicaciones prácticas importantres. Un proceso Poisson no sólo representa numerosos fenómenos discretos, sino que el modelo Poisson también se usa para proporcionar aproximaciones a la distribución binomial.

Se dice que un proceso de Poisson existe si podemos observar eventos discretos en un área de oportunidad, un intervalo continuo, de tal manera que si acotamos el área de oportunidad o intervalo de manera suficiente:

La probabilidad de observar exactamente un éxito en el intervalo es estable.
La probabilidad de observar exactamente más de un éxito en el intervalo es cero.
La ocurrencia de un éxito en cualquier intervalo es estadísticamente independiente de aquella en cualquier otro intervalo.

Características

Forma. Cada vez que se especifica el parámetro λ, puede generarse una distribuciónde probabilidad de Poisson espacífica. Una distribución de Poisson estará sesgada a la derecha cuando λ es pequeña, y se aproximará a la simetría al crecer.
La media y la desviación estándar. Una propiedad de esta distribución es que la media y la varianza son iguales al parámetro λ.

Uso de la distribución de Poisson para aproximar la distribución binomial

Para aquellas situaciones en las que n es grande ( mayor o igual a 20 ) y p es muy pequeña ( menor a 0.05 , la distribución de Poisson puede usarse para aproximar la distribución binomial.

La variable aleatoria de Poisson puede variar teóricamente de 0 a ∞ . Sin emabrgo, cuando se usa como una aproximación a la distribución binomial, la variable aleatoria de Poisson, el número de éxitos de n observaciones, claramente no puede exceder el tamaño de la muestra n.

Características

μ=λ = n * p

8. Capítulo 8 del libro

La distribución Normal

Modelos matemáticos de variables aleatorias continuas:. La función de densidad de probabilidad.

La probabilidad exacta de un valor particular de una distribución continua es cero. A fin de eliminar la necesidad de realizar laboriosos cálculos matemáticos se ha desarrolladola distribución gaussiana o normal.

La Distribución Normal.
Importancia de la distribución Normal.

La distribución normal es de vital importancia en estadística por tres razones principales:

Numerosos fenómenos continuos parecen seguirla o pueden aproximarse mediante ésta.
Podemos usarla para aproximar diversas distribuciones de probabilidad discreta y evitar así pesados cálculos.
Proporciona la base de la inferencia estadística clásica debido a su relación con el teorema del límite central.

Propiedades de la distribución normal

Tiene forma de campana y es simétrica en apariencia.
Sus mediciones de tendencia central (media, mediana, moda alcance medio y eje medio) son todas idénticas.l
Su "dispersión media" es igual a 1.33 desviaciones estándar. Es decir, el alcance intercuartil está contenido dentro de un intervalo de dos tercios de una desviación estándar por debajo de la media a dos tercios de una desviación estándar por encima de la media.
Su variable aleatoria asociada tiene un alcance infinito

El modelo matemático

Para la distribuciónnormal, el modelo usado para obtener las probabilidades deseadas es:

Examinemos los componentes de la función: puesto que e y ∏ son constantes matemáticas, las probabilidades de la variable aleatoria X dependen sólo de dos parámetros de la distribución normal, la media de la población y de la desviación estándar de la población. Cada vez que especificamos una combinación particular se generará una distribución de probabilidad diferente.

Estandarización de la distribución normal

Afortunadamente, al estandarizar los datos, solo necesitamos una fórmula:

Al usar la fórmula de transformación cualquier variable aleatoria normal X se convierte en una variable aleatoria normal estandarizada Z. Mientras los datos originales para la variable aleatoria X tenían una media y una desviación estandar, la variable aleatoria estandarizada Z siempre tendrá una media = 0 y una desviación = 1.

Uso de las tablas de distribución de probabilidad normal

La tabla de normal representa las probabilidades o áreas bajo la curva normal calculadas desde la media hasta los valores particulares de interés X. Sólo se enumeran en la tabla entradas positivas de Z, puesto que para una distribución simétrica de este tipo con una media de cero, el área que va desde la media hasta +Z debe ser idéntica al área que va desde la media hasta –Z. Al usar la tabla de normal se puede observar que todos los valores de Z deben registrarse primero con hasta dos lugares decimales.

Encontrar los valores correspondientes a probabilidades conocidas.

Para encontrar un valor particular asociado con una probabilidad conocida,debemos adoptar los siguientes pasos:

Trazar la curva normal y luego colocar los valores para las medias en las escalas X y Z respectivas.
Dividir la mitad apropiada de la curva normal en dos partes: la porción de la X deseada a la media y la porción de la X deseada al extremo.
Sombrear el área de interés.
Usando la tabla de normal determinar el valor Z apropiado correspondiente al área que está bajo la curva normal desde la X deseada hasta la media.
Usando la ecuación que se presenta a continuación encontrar X.

Aproximación de la distribución binomial Mientras más cerca esté p de 0,50 y mientras más grande sea el número de observaciones de la muestra n, más simétrica se vuelve la distribución. Siempre que el tamño de muestra sea grande, puede usarse la distribución normal para aproximar las probabilidades exactas de éxito que de otra manera se tendrían que haber obtenido mediante laboriosos cálculos. Como regla general, esta aproximación normal puede usars siempre que n * p y n * ( 1- p ) sean al menos 5. Entonces la nueva Z sera la que se presenta a continuación:

Aproximación de la distribución de Poisson La distribución normal también puede usarse para aproximar el modelo de poisson siempre que el parámetro Lambda sea igual o mayor que cinco. Entonces la formula de Z será la siguiente:

9. Capitulo 9 del libro

Distribuciones de muestreo Con el fin de poder usar la estadística de muestra para estimar el parámetro de población, deberíamos examinar cada muestra posible que pudiera ocurrir. Si esta selección de todas las muestras posibles realmente se tuviera que hacer, la distribución de todos los resultados se denominaría distribución de muestreo. El proceso de generalizar estos resultados de muestra para la población se refiere como una inferencia estadística.

Distribución de muestreo de la media

Propiedades de la media aritmética

Entre varias propiedades matemáticas importantes de la media aritmética para una distribución normal están:

Imparcialidad
Eficiencia
Consistencia.

La imparcialidad, implica el hecho de que el promedio de todas las medias de muestras posibles será igual a la media de la población. Tomemos como ejemplo una población de N=4 con tamaños de muestra de 2. Si seleccionamos dos muestras con reemplazo, podríamos obtener 16 muestras posibles. El promedio de cada una de las muestras es igual a la media de la población. Por lo tanto hemos demostrado que la media aritmética de muestra es un estimador imparcial de la media de la población. Esto nos dice que aún cuando no sepamos qué tan cerca esté el promedio de cualquier muestra particular seleccionada a la media de la población, al menos estamos seguros que el promedio de todas las medias de muestra que se podrían haber seleccionado será igual a la media de la población. La eficiencia, se refiere a la precisión de la muestra estadística como un estimador del parámetro de población. La media de muestra se acercará más estable que otras mediciones de tendencia central. La media de muestra se acercará más a la media de la población que cualquier otro estimador. La consistencia, se refiere al efecto del tamaño de muestra, sobre la utilidad de un estimador. Al incrementarse el tamaño de muestra, la variación de la media de muestra de la media de la población se hace más pequeña, de manera que la media aritmética de muestra se vuelve una mejor estimación de la media de la población.

Error estándar de la media El hecho de que las medias de muestra son menos variables que los datos de población se desprende directamente de la ley de los grandes números. Una media de muestra particular promedia conjuntamente todos los valores de la muestra. Una población puede consistir en resultados individuales que pueden tener un amplio radio de valores, de extremadamente pequeños a extremadamente grandes. Sin embargo, si un valor extremo cae en la muestra, aunque tendrá un efecto en la media, el efecto se reducirá pues se promediará con todos los demás valores de la muestra. Además, al incrementarse el tamaño de la muestra, el efecto de un valor extremo se hace cada vez menor, puesto que se está promediando con más observaciones. Al muestrearse con reemplazo, el error estándar de la media es igual a la desviación estándar de la población dividida entre la raíz cuadrada del tamaño de muestra.

Muestreo de poblaciones normales Puede demostrarse que si muestreamos con reemplazo de una población con distribución normal, la distribución de muestreo de la media también tendrá una distribución normal para cualquier tamaño de muestra y tendrá una desviación estándar como la que se mostró más arriba. Al incrementarse el tamaño de muestra el error estándar de la media disminuye, de forma tal que una mayor proporción de medias de muestra están más cercanas a la media de la población.

Muestro de poblaciones no normales

En muchos casos no sabremos si la población se distribuye normalmente. Por lo tanto, necesitamos examinar la distribución de muestreo de la media para poblaciones que no están normalmente distribuidas.

Teorema del límite central. Al hacerse lo bastante grande el tamaño de muestra, la distribución de muestreo de la media puede aproximarse mediante la distribución normal. Esto es cierto no importando la forma de la distribución de los valores individuales de la población. ¿Qué tamaño de muestra? Una gran parte de las investigaciones demuestran que una muestra adecuada de por la menos 30, hace que la distribución de muestreo se aproxime a la normal.

Para la mayoría de las distribuciones de población, sin importar la forma, la distribución de muestreo de la media tendrá una distribución aproximadamente normal, si se seleccionan muestras de al menos 30 observaciones.
Si la distribución de la población es lo bastante simétrica, la distribución de muestreo de la media será aproximadamente normal si se seleccionan muestras de al menos 15 observaciones.
Si la población se distribuye normalmente, la distribución de muestreo de la media se distribuirá normalmente sin importar el tamaño de la muestra.

Distribución de muestreo de la proporción Cuando trabajamos con variables categóricas cada característica puede clasificarse con 1 o 0 para representar la presencia o ausencia de la característica. Al tratar con datos categóricos puede definirse como:

La proporción tiene la propiedad especial de estar entre 0 y 1. El error estándar de la proporción es:

La distribución de muestreo de la proporción sigue una distribución binomial. Sin embargo, cuando n*p y n*(1-p) son cada uno al menos 5 puede usarse la distribución normal.

Muestreo de poblaciones finitas

En casi todas las investigaciones el muestreo es conducido sin reemplazo, por esto debe usarse un factor de corrección de población finita (fpc) en la definición tanto del error estándar de la media como del error estándar de la proporción. El factor de corrección puede expresarse como:

10. Capitulo 10 del libro

Estimación Introducción La inferencia estadística es el proceso que consiste en utilizar los resultados de una muestra para llegar a conclusiones acerca de las características de una población.

Existen dos tipos de estimaciones: estimaciones puntuales y estimaciones de intervalo. Una estimación puntual consiste en una sola estadística de muestra que se utiliza para estimar el valor verdadero de un parámetro de población. Puesto que la estadística de prueba varía de una muestra a otra necesitamos considerar este hecho con el fin de proporcionar una estimación más significativa y característica de la población. Para lograr esto, debemos desarrollar una estimación de intervalo de la media de población verdadera, tomando en consideración la distribución de muestreo de la media. El intervalo que construimos tendrá una confianza o probabilidad específica de estimar correctamente el valor verdadero del parámetro de población.

Estimación de intervalo de confianza de la media (desvío de la población conocido): En la inferencia estadística debemos tomar los resultados de una sola muestra y llegar a conclusiones acerca de la población. En la práctica, la media de la población es la cantidad desconocida que se va a determinar. Para algunas muestras la estimación de intervalo de la media de la población será correcta y para otras no. Tenemos que recordar que para el cálculo del intervalo trabajamos con una estimación de intervalo de confianza de 95, por ejemplo, esto puede interpretarse como si se tomaran todas las muestras posibles del mismo tamaño, n, 95% de ellas incluirían la media de población verdadera en alguna parte del intervalo alrededor de sus medias de muestra, y solamente 5% de ellas no estarían incluidas. En general el nivel de confianza se simboliza como (1-α ) x 100%, en donde α es la porciσn que se encuentra en los extremos de la distribuciσn que está fuera del intervalo de confianza. Por consiguiente para obtener la estimación del intervalo tenemos:

Z es el valor correspondiente a un área de (1-α )/2 desde el centro de una distribución normal estandarizada. El valor Z elegido para construir tal intervalo de confianza se conoce como el valor crítico.

Cualquier aumento en el nivel de confianza se logra ampliando simultáneamente el intervalo de confianza obtenido (haciéndolo menos preciso y menos útil).

Estimación de intervalo de confianza de la media (desvío desconocido) Del mismo modo en que la media de la población se desconoce, es probable que la desviación estándar real de la población tampoco sea conocida. Por lo tanto, necesitamos obtener una estimación de intervalo de confianza utilizando las estadísticas de muestra "X" y "S". Para ello, utilizamos la distribución t-student. De este modo, el intervalo de confianza se establecerá a partir de la siguiente fórmula: Estimado del intervalo de confianza de la porción

Podemos establecer la siguiente estimación de intervalo de confianza (1-α) para la porciσn de la poblaciσn:

Determinación del tamaño de muestra para la media:

El error de muestreo "e" se puede definir como:

Por consiguiente para determinar el tamaño de la muestra, deben conocerse tres factores:

El nivel de confianza deseado.
EL error de muestreo permitido.
La desviación estándar.

Determinación del tamaño de muestra para una porción:

Al determinar el tamaño de muestra para estimar una porción se deben definir tres incógnitas:

El nivel de confianza.
El error de muestreo permitido.
La porción verdadera de éxitos.

Estimación y determinación del tamaño de muestra para poblaciones finitas. Estimación de la media

Estimación de la porción

Determinación del tamaño de muestra

11. Hipótesis nula y alternativa

La prueba de hipótesis empieza con algo de teoría, afirmación o negación con respecto a un parámetro particular de una población. La hipótesis de que el parámetro de la población es igual a la especificación de la compañía se conoce como hipótesis nula. Una hipótesis nula es siempre una de status quo o de no diferencia. Se simboliza con el símbolo Ho. Siempre que especificamos una hipótesis nula, también debemos especificar una hipótesis alternativa, o una que debe ser verdadera si se encuentra que la hipótesis nula es falsa. La hipótesis alternativa se simboliza H1. La hipótesis alternativa representa la conclusión a la que se llegaría si hubiera suficiente evidencia de la información de la muestra para decidir que es improbable que la hipótesis nula sea verdadera, y por tanto rechazarla. El hecho de no rechazar la hipótesis nula no es una prueba de que ésta sea verdadera. Nunca podemos probar que tal hipótesis sea correcta porque estamos basando nuestra decisión únicamente en la información de la muestra, no en la población entera.

Resumen:

La hipótesis nula se refiere siempre a un valor especificado del parámetro de población, no a una estadística de muestra.
El planteamiento de la hipótesis nula siempre contiene un signo de igualdad con respecto al valor especificado del parámetro.
El planteamiento de la hipótesis alternativa nunca contiene un signo de igualdad con respecto al valor especificado del parámetro.

Regiones de rechazo y de no rechazo

La distribución de muestreo de la estadística de prueba se divide en dos regiones, una región de rechazo (conocida como región crítica) y una región de no rechazo. Si la estadística de prueba cae dentro de la región de no rechazo, no se puede rechazar la hipótesis nula. La región de rechazo puede considerarse como el conjunto de valores de la estadística de prueba que no tienen posibilidad de presentarse si la hipótesis nula es verdadera. Por otro lado, estos valores no son tan improbables de presentarse si la hipótesis nula es falsa. El valor crítico separa la región de no rechazo de la de rechazo. Riesgos en la toma de decisiones al utilizar la metodología de prueba de hipótesis. Se pueden presentar dos tipos diferentes de errores:

Un error tipo I se presenta si la hipótesis nula es rechazada cuando de hecho es verdadera y debía ser aceptada.
Un error tipo II se presenta si la hipótesis nula es aceptada cuando de hecho es falsa y debía ser rechazada.

Nivel de Significación. La probabilidad de cometer un error tipo I denotada con la letra griega alfa, se conoce como nivel de significación de la prueba estadística. Está bajo el control directo del individuo que lleva a cabo la prueba. Ya que se ha especificado el valor de alfa, se conoce el tamaño de la región de rechazo, puesto que alfa es la probabilidad de un rechazo de la hipótesis nula.

Coeficiente de confianza. EL complemento ( 1-a ) de la probabilidad de cometer un error de tipo I se conoce como coeficiente de confianza.

El coeficiente de confianza es la probabilidad de que la hipótesis nula no sea rechazada cuando de hecho es verdadera y debería ser aceptada.

Riesgo b . La probabilidad de cometer un error de tipo II se conoce como nivel de riesgo del consumidor. A diferencia del error tipo I, en el cual las pruebas estadísticas nos permiten controlar nuestra elección de a , la probabilidad de cometer un error del tipo II depende de la diferencia entre los valores supuesto y real del parámetro de población. Como es más fácil encontrar diferencias grandes, si la diferencia entre la estadística de muestra y el correspondiente parámetro de población es grande, b la probabilidad de cometer un error del tipo II, probablemente sea pequeña.

Potencia de una prueba. El complemento (1-b ) de la probabilidad de cometer un error del tipo II se conoce como potencia de una prueba estadística. La potencia de una prueba es ña probabilidad de rechazar la hipótesis nula cuando de hecho esta es falsa y debería ser rechazada. Una manera en que podemos controlar la probabilidad de cometer un error del tipo II en un estudio, consiste en aumentar el tamaño de la muestra. Tamaños más grandes de muestra, nos permitirán detectar diferencias incluso muy pequeñas entre las estadísticas de muestra y los parámetros de la población. Cuando se disminuye a , b aumentará de modo que una reducción en el riesgo de cometer un error de tipo I tendrá como resultado un aumento en el riesgo de cometer un error tipo II.

Prueba de hipótesis Z para la media (desvío de la población conocido)

El estadístico de prueba a utilizar es:

La Potencia de una prueba

β representa la probabilidad de que la hipσtesis nula no sea rechazada cuando de hecho es falsa y debería rechazársele. La potencia de prueba 1-β representa la sensibilidad de la prueba estadística para detectar cambios que se presentan al medir la probabilidad de rechazar la hipótesis nula cuando de hecho es falsa y debería ser rechazada. La potencia de prueba estadística depende de qué tan diferente en realidad es la media verdadera de la población del valor supuesto.

Una prueba de un extremo es más poderosa que una de dos extremos, y se debería utilizar siempre que sea adecuado especificar la dirección de la hipótesis alternativa.

Puesto que la probabilidad de cometer un error tipo I y la probabilidad de cometer un error tipo II tienen una relación inversa y esta última es el complemento de la potencia de prueba (1-β), entonces α y la potencia de la prueba varνan en proporciσn directa. Un aumento en el valor del nivel de significación escogido, tendría como resultado un aumento en la potencia y una disminución en α tendría como resultado una disminución en la potencia. Un aumento en el tamaño de la muestra escogida tendría como resultado un aumento en la potencia de la prueba, una disminución en el tamaño de la muestra seleccionada tendría como resultado una disminución en la potencia.

12. Capitulo 12 del libro

Pruebas de una muestra con datos numéricos Elección del procedimiento de prueba apropiada Procedimientos paramétricos Todos los procedimientos paramétricos tienen tres características distintivas: Los procedimientos de prueba paramétricos pueden definirse como aquellos 1)que requieren que el nivel de medición obtenido con los datos recolectados esté en forma de una escala de intervalo o de una escala de cociente; 2)implican la prueba de hipótesis de valores de parámetros especificados 3) y por último requieren un conjunto limitante de suposiciones.

Procedimientos sin distribución y no paramétricos Los procedimientos de prueba sin distribución pueden definirse ampliamente como 1) aquellos cuya estadística de prueba no depende de la forma de la distribución de la población subyacente de la cual se tomó la muestra de datos o como 2) aquellos para los cuales los datos no tienen fuerza suficiente para garantizar operaciones aritméticas significativas.

Los procedimientos no paramétricos pueden definirse como aquellos que no tienen que ver con los parámetros de una población.

Prueba t de hipótesis para la media (δ2 desconocida)

En ocasiones se desconoce la desviación estándar de la población. Sin embargo, se la puede estimar con el cálculo de S, la desviación estándar de la muestra. Recordemos de muestreo de la media seguirá una distribución t con n-1 grado de libertad.

Aproximación del valor p Suposiciones de la prueba t de una muestra La prueba t está considerada como un procedimiento paramétrico clásico. Supuestos: los datos numéricos obtenidos son tomados de manera independiente y representan una muestra aleatoria de la población que está distribuida normalmente. Prueba de hipótesis χ2 para la varianza (o desviación estándar) Al intentar llegar a conclusiones con respecto a la variabilidad de la población, primero debemos determinar que estadística de prueba puede utilizarse para representar la distribución de la variabilidad de los datos de la muestra. Si la variable se supone que está distribuida normalmente, entonces la estadística de prueba para probar si la varianza de la población es igual o no a un valor especificado es:

Una distribución chi-cuadrado es una distribución sesgada cuya forma depende exclusivamente del número de grados de libertad. Conforma este aumenta, la distribución se vuelve más simétrica.

13. Capítulo 13 del libro

Pruebas de dos muestras con datos numéricos Prueba t de varianza conjunta para diferencias entre dos medias

Supongamos que consideramos dos poblaciones independientes, cada una con una media y una desviación estándar. La estadística de prueba utilizada para determinar la diferencia entre las medias de las poblaciones está basada en la diferencia entre las medias de las muestras (X1 – X2). Debido al teorema del límite central esta estadística seguirá la distribución normal. La estadística de prueba Z es:

En donde X es la media de la muestra correspondiente a cada una de las dos muestras, n es el tamaño de la muestra y por último tenemos la varianza de la muestra.

Si suponemos que las varianzas son iguales y que las muestras fueron tomadas de manera aleatoria e independiente se puede utilizar una prueba t de varianza conjunta para determinar si existe alguna diferencia significativa entre las medias de las poblaciones. Si puede calcular la siguiente estadística de prueba t de varianza conjunta:

Donde:

La estadística de prueba t de varianza conjunta sigue una distribución t con n-2 grados de libertad.

Prueba t`de varianza separada para diferencias entre dos medias

Si suponemos que las varianzas no son iguales como en el caso anterior debemos replantear el estadístico a utilizar.

La estadística de prueba t`puede ser aproximada con la fórmula de v, mostrada anteriormente. Prueba t para la diferencia de medias Con el propósito de determinar cualquier diferencia que exista entre dos grupos relacionados, deben obtenerse las diferencias en los valores individuales de cada grupo. Cuando la desviación estándar de la poblacion de la diferencia es conocida y el tamaño de muestra es lo suficientemente grande. La estadística de prueba Z es:

Sin embargo, en la mayoría de los casos no conocemos la desviación estándar real de la población. La única información que se puede obtener son las estadísticas sumarias como la media y la desviación estándar de muestra. Si se supone que la muestra de resultados es tomada de manera aleatoria e independiente se puede realizar una prueba t para determinar si existe una diferencia media de población significativa. La estadística seguirá una distribución t con n-1 grados de libertad. Ho= µd = 0 donde µd= µ1-µ2 H1= µd ≠ 0

Se puede calcular el siguiente estadístico de prueba:

14. Capitulo 14 del libro

Prueba de hipótesis con datos categóricos Prueba Z de una muestra para la proporción Para evaluar la magnitud de la diferencia entre la porción de la muestra y la porción de la población supuesta la estadística de prueba está dada por la ecuación siguiente:

La estadística de prueba Z está distribuida de manera aproximadamente normal.

Prueba Z para diferencias entre dos porciones (muestras independientes) Cuando se evalúan diferencias entre dos porciones basándose en muestras independientes se puede emplear una prueba Z. La estadística de prueba es:

Se supone que las dos porciones de población son iguales. Ho= p1=p2 H1= p1 ≠ p2

Prueba X2 de independencia Sirve para evaluar diferencias potenciales entre la porción de éxitos en cualquier número de poblaciones. Para una tabla de contingencias que tiene r renglones y c columnas, la prueba mencionada puede generalizarse como una prueba de independencia. Como prueba de hipótesis las hipótesis nula y alternativa son: H0= Las dos variables categóricas son independientes. H1= Las dos variables categóricas están relacionadas. La estadísitica de prueba es la siguiente:

La regla de decisión consiste en rechazar ña hipótesis nula a un nivel de significación si el valor calculado de la estadística de prueba es mayor que el valor crítico de extremo superior de una distribución chi-cuadrada que posee (r-1)*(c-1) grados de libertad.

15. Capítulo 15 del libro

Regresión lineal simple y correlación El análisis de regresión se utiliza principalmente con el propósito de hacer predicciones. El análisis de correlación se utiliza para medir la intensidad de la asociación entre las variables numéricas. Diagrama de dispersión: cada valor es graficado en sus coordenadas particulares X, Y. Tipos de modelos de regresión. El modelo de línea recta puede representarse como:

El primer termino (B0), es la intersección Y para la población; B1 es la pendiente de la población y E es el error aleatorio en Y para la observación i. En este modelo, la pendiente de la recta B1 representa el cambio esperado en Y por unidad de cambio en X; esto es, representa la cantidad que cambia la variable Y con respecto a una unidad de cambio particular en X. B0 representa el valor promedio de Y cuando X es igual a cero. El modelo matemático está influenciado por la distribución de los valores X y Y en el diagrama de dispersión.

Determinación de la ecuación de regresión lineal simple. El método de mínimos cuadrados.

A b0 y b1 se los puede considerar como estimaciones de B0 y B1. Por consiguiente, la ecuación de regresión de muestra sería:

Yi es el valor predicho de Y para la observación i, y Xi es el valor de X para la observación i.

El análisis de regresión lineal simple tiene que ver con la búsqueda de la línea recta que mejor se ajusta a los datos. El mejor ajuste significa que deseamos encontrar la línea recta para la cual las diferencias entre los valores reales (Yi) y los valores que serían predichos a partir de la línea ajustada de regresión (Yi estimada) sean lo más pequeñas posibles. Debido a que tales diferencias serán positivas y negativas para las diferentes observaciones, minimizamos matemáticamente la expresión:

Una técnica matemática utilizada para determinar los valores de bo y b1 que mejor se ajusten a los datos observados se conoce como método de mínimos cuadrados. Al utilizar este método surgen dos ecuaciones normales:

II.

El error estándar de estimación.

El error estándar de la estimación, representado como Syx se define como:

Mediciones de variación en regresión y correlación. Con el fin de examinar que tan bien una variable independiente predice a la variable dependiente, necesitamos desarrollar algunas medidas de variación. La primera: la suma total de cuadrados, esta puede dividirse en dos partes: la variación explicada o suma de cuadrados debida a la regresión (SSR) y la variación no explicada o suma de cuadrados de error (SSE). La suma de cuadrados debida a la regresión. La SSR representa la diferencia entre el valor promedio de Y y el valor promedio de Y que sería predicho a partir de la relación de regresión).La SSE representa aquella parte de la variación de Y que noo es explicada por la regresión.

SST = SSR + SSE

En la que SST =

Podemos ahora definir el coeficiente de determinación r2: mide la porción de variación que es explicada por la variable independiente del modelo de regresión:

Algunos investigadores sugieren que se calcule un coeficiente r2 ajustado para reflejar tanto el número de variables explicatorias del modelo como el tamaño de la muestra. El coeficiente r2 ajustado se calcula de la siguiente manera:

Correlación: medición de la intensidad de la asociación En el análisis de correlación estamos interesados en medir el grado de asociación entre dos variables. La intensidad de la relación se mide mediante el coeficiente de correlación r , cuyos valores van de –1 a +1. El coeficiente de correlación en casos de regresión lineal simple toma el signo de b1.

Suposiciones de regresión y correlación. Las cuatro principales suposiciones acerca de la regresión son: 1.Normalidad. 2. Homoscedasticidad. 3. Independencia de error. 4. Linealidad. La primera suposición, normalidad, requiere que los valores de Y estén distribuidos normalmente en cada valor de X. Siempre y cuando la distribución de los valores de Yi alrededor de cada nivel de X no sea extremadamente diferente de una distribución normal, las inferencias acerca de la línea de regresión y de los coeficientes de regresión no se verán seriamente afectadas. La segunda suposición, homoscedasticidad, requiere que la variación alrededor de la línea de regresión sea constante para todos los valores de X. La tercera suposición, independencia de error, requiere que el error sea independiente de cada valor de X. Por último, la linealidad establece que la relación entre las variables es lineal.

Estimación del intervalo de confianza para predecir m yx.

Intervalo de predicción para una respuesta individual Yi

Inferencias respecto a los parámetros de población en regresión y correlación

Ho= β1=0 (No hay relaciσn)

H1= β1 ≠ 0 (Hay relaciσn)

Y la estadístida de prueba para probar la hipótesis está dada por:

La estadística de prueba sigue una distribución t con n-2 grados de libertad.

Un segundo método equivalente para probar la existencia de una relación lineal entre las variables consiste en establecer una estimación de intervalo de confianza de β1 y determinar si el valor supuesto está incluido en el intervalo. La estimación del intervalo de confianza se obtendría de la siguiente manera:

Un tercer método para examinar la existencia de una relación lineal entre dos variables implica al coeficiente de correlación de la muestra, r. Para ello se realiza lo siguiente:

Ho: ρ = 0 ( No hay relación)

H1: ρ ≠ 0 (Hay relaciσn)

La estadística de prueba para determinar la existencia de una correlación esta dada por:

La estadística de prueba sigue una distribución t con n-2 grados de libertad.

Dificultades de la regresión y cuestiones éticas Las dificultades que surgen con frecuencia son:

Falta de conciencia sobre las suposiciones de la regresión de mínimos cuadrados.
Conocimiento de cómo evaluar las suposiciones de la regresión de mínimos cuadrados.
Conocimientos de cuáles son las alternativas de la regresión de mínimos cuadrados si no se cumple alguna suposición individual.
La creencia de que la correlación implica causalidad.
El uso del modelo de regresión sin conocer de qué se trata.

16. Aplicaciones estadísticas en administración de la calidad y productividad

Calidad y productividad: Una perspectiva histórica. Al tema de calidad y productividad lo podemos dividir en cuatro fases históricas: 1. Podemos pensar en una administración de primera generación como administración mediante la acción, el tipo administración practicada por las sociedades cazadoras-recolectoras primitivas en que los individuos producían algo para sí mismos o para su unidad tribal, siempre que el producto fuera necesario. 2. Luego encontramos la administración por dirección. Es la época del surgimiento de los gremios en Europa (Edad Media). Los gremios administraban el entrenamiento de aprendices y trabajadores y determinaban las normas de calidad y fabricación de los productos hechos por el gremio. 3. La administración por control, surge aproximadamente con Henry Ford, en el cual los trabajadores estaban divididos entre aquellos que en realidad hacían el trabajo y aquellos que planeaban y supervisaban el trabajo. Esto le quitó responsabilidad al trabajador individual con respecto al tema calidad y dejó el tema en manos de inspectores. El estilo de administración por control contenía una estructura jerárquica que ponía énfasis en la responsabilidad individual por la obtención de un conjunto de objetivos predeterminados. 4. Por último encontramos la administración por proceso. Llamada a menudo TQM o Administración de Calidad Total. Una de las características principales de este planteamiento consiste en centrar la atención en una continua mejora de los procesos. Se le da importancia al trabajo en equipo, atención al cliente y rápida reacción a los cambios. Tiene fuerte fundamentación estadística.

La teoría de los diagramas de control. El diagrama de control es un medio para revisar la variación de la característica de un producto o servicio mediante 1. la consideración de la dimensión temporal en la cual el sistema fabrica productos y 2. el estudio de la naturaleza de la variabilidad del sistema. El diagrama de control puede utilizarse para estudiar desempeños pasados o evaluar las condiciones presentes o ambas cosas. Los diagramas de control pueden utilizarse para diferentes tipos de variables: para las variables categóricas y para las variables discretas. La atención principal del diagrama de control se enfoca en el intento de separar las causas especiales o asignables de la variación de las causas comunes o debidas al azar.

Las causas especiales o asignables representan grandes fluctuaciones en los datos que no son inherentes a un proceso. Tales fluctuaciones son ocasionadas por cambios en un sistema.
Las causas comunes o debidas al azar representan la variabilidad inherente que se presenta en un sistema.

Las causas especiales se consideran aquellas que no forman parte de un proceso y son susceptibles de corregir; mientras que las causas comunes pueden reducirse solo cambiando el sistema. Existen dos tipos de errores que los diagramas de control ayudan a prevenir. El primer tipo de error implica la creencia de que un valor observado representa una causa especial de la variación cuando de hecho se debe a una causa común de variación del sistema. El segundo error implica tratar a una causa especial como si fuera una causa común y no tomar medidas correctivas cuando son necesarias.

La forma más típica de un diagrama de control establece límites de control que se encuentran dentro de +/-3 desviaciones estándar de la medida de estadística de interés. En general puede establecerse como:

Algunas herramientas para estudiar un proceso: diagrama de esqueleto de pescado (Ishikawa) y de flujo de procesos. Un proceso es una secuencia de pasos que describen una actividad desde el inicio hasta su terminación.

El diagrama de esqueleto de pescado (o Ishikawa): El nombre viene de la manera en que las diferentes causas están ordenadas en el diagrama. El problema se muestra en la parte derecha y las principales causas se colocan en la parte izquierda. Estas causas a menudo se subdividen.
Diagrama de flujo de proceso. Este diagrama nos permite ver un flujo de pasos de un proceso, desde su inicio hasta su terminación.

Los catorce puntos de Deming: una teoría de la administración por proceso. Deming desarrollo su enfoque basándose en los siguientes catorce puntos:

Crear una constancia en el propósito de mejorar el producto y el servicio.
Adoptar la nueva filosofía.
Dejar de ser dependientes de la inspección para lograr la calidad.
Terminar con la práctica de otorgar contratos sobre la única base del precio. En vez de ello minimizar el costo total trabajando con un solo proveedor.
Mejorar constantemente y para siempre cada proceso de planeación, producción y servicio.
Instituir el entrenamiento en el trabajo.
Adoptar e instituir el liderazgo.
Eliminar el miedo.
Derribar las barreras entre áreas de personal.
Eliminar lemas, exhortaciones y metas destinados a la fuerza laboral.
Eliminar cuotas numéricas para la fuerza laboral y objetivos numéricos para la administración.
Retirar barreras que le restan orgullo a la gente respecto a su trabajo. Eliminar el sistema de evaluación anual o de mérito.
Instituir un vigoroso programa de educación y autodesarrollo para todos.
Poner a todo el que trabaje en la compañía a trabajar en el logro de la transformación.

Diagramas de control para la proporción y el número de elementos que no se ajustan:. Los diagramas p y np.

Diagrama p: basado en la porción de elementos que no cumplen con los requisitos. Para establecer los límites de control:

Cualquier valor negativo del límite de control inferior significará que el límite de control inferior no existe.

Diagrama np: basado en el número de elementos que no cumplen con los requisitos. Los límites de control los establecemos de la siguiente manera:

El diagrama R: Un diagrama de control para la dispersión. Los límites de este diagrama de control los obtenemos de la siguiente manera:

Diagrama X. El diagrama de control para X utiliza subgrupos de tamaño n que se obtienen sobre k secuencias consecutivas o periodos. Los límites de control se obtienen de la siguiente manera:

Resumen Pronóstico de series de tiempo. Tipos de métodos de predicción: Existen dos planteamientos para la predicción: cualitativa y cuantitativa. Los métodos de predicción cualitativa son especialmente importantes cuando no se dispone de datos históricos. Se consideran altamente subjetivos. Los métodos de predicción cuantitativa hacen uso de los datos históricos.

Introducción al análisis de series de tiempo. Una serie de tiempo es un conjunto de datos numéricos que se obtienen en períodos regulares a través del tiempo. El principal objetivo de una serie de tiempo consiste en identificar y aislar tales factores de influencia con propósitos de hacer predicciones, así como para efectuar una planeación y un control administrativo.

Factores componentes del modelo multiplicativo de series temporales. Tendencia: impresión a largo plazo. Componente cíclico: representa la oscilación o los movimientos a la baja y a la alta que se dan a lo largo de la serie. Los movimientos cíclicos varían en longitud, por lo general de dos a 10 años. Componente irregular aleatorio: cualquier componente que no sigue la curva de tendencia modificada por el componente cíclico. Cuando los datos se registran mensual o trimestralmente además de la tendencia cíclica y los componentes irregulares debemos tomar en cuenta el factor estacional. El modelo multiplicativo clásico de las series temporales. Cuando los datos se obtienen anualmente una observación Yi puede expresarse como: Yi=Ti*Ci*Ii; en la que Ti es el valor del componente tendencia, Ci= valor del componente cíclico; Ii es el valor del componente irregular. Por otra parte cuando los datos se obtienen de manera trimestral o mensual una observación Yi puede estar dada por: Yi=Ti*Si*Ci*Ii, en la que Si es el valor del componente estacional.

El primer paso de una serie de tiempo consiste en graficar los datos y observar su tendencia a través del tiempo. Primero debemos determinar si parece haber un movimiento a largo plazo hacia arriba o hacia abajo en la serie. ( es decir una tendencia), o si la serie parece oscilar alrededor de una línea horizontal a través del tiempo. Si este último parece ser el caso entonces debe emplearse el método de promedios móviles o el suavizado exponencial, para suavizar la serie y proporcionarnos una impresión global a largo plazo.

Suavizado de las series temporales anuales:. promedios móviles y suavizado exponencial. Promedios móviles. Este método es altamente subjetivo y dependiente de la longitud del período elegido para la construcción de los promedios. Para eliminar las fluctuaciones cíclicas, el período escogido debe ser un valor entero que corresponda a la duración promedio estimada de un ciclo. Los promedios móviles para un período elegido de longitud L consisten en una serie de medias aritméticas calculadas en el tiempo de tal modo que cada media se calcula para una secuencia de valores observados que tienen esa longitud particular, L.

El promedio móvil puede calcularse de la siguiente manera: Cuanto más largo sea el período, menor será el número de valores promedio móvil que se pueden calcular y graficar. Por consiguiente, la selección de promedios móviles con períodos de longitud mayores a siete años es, por lo general, no deseable puesto que habrá demasiados puntos de datos que faltan al inicio y al final de la serie, haciendo que sea más difícil de obtener una impresión global de la serie completa.

Suavizado Exponencial. El suavizado exponencial puede utilizarse para obtener predicciones a corto plazo. Su nombre deriva del hecho de que nos proporciona un promedio móvil pesado o ponderado exponencialmente a través de la serie de tiempo, esto es, a lo largo de la serie cada cálculo de suavizado o predicción depende de todos los valores observados anteriormente. Esta es una ventaja con respecto al otro método. Con este método los pesos asignados a los valores observados disminuyen con el tiempo, de modo que cuando se hace el cálculo, el valor observado más reciente recibe el mayor peso.

Para suavizar una serie de tiempo en cualquier periodo i tenemos la siguiente expresión:.

Ei= valor de la serie suavizada exponencialmente que se calcula en el período i. Ei-1= valor de la serie suavizada exponencialmente calculado en el período i-1 Yi= valor observado de la serie en el período i W= peso o coeficiente de suavizado que se asigna de manera subjetiva. W==2/(L+1)

Si deseamos suavizar una serie mediante la eliminación de las variaciones cíclicas e irregular no deseadas, debemos seleccionar un pequeño valor de W. Si, nuestro objetivo es hacer predicciones debiésemos seleccionar el valor más grande de W (cercano a uno).

Análisis de series de datos anuales: ajuste de tendencia de mínimos cuadrados y pronóstico.

El modelo lineal:

El modelo cuadrático:

El modelo exponencial:

Elección de un modelo de predicción apropiado

Autor:

Hernan Torino htorino[arroba]sinectis.com.ar