Descargar

Trabajo de Estadística

Enviado por anonimo


    1. Variable Aleatoria
    2. Tratamiento de Variables Aleatorias
    3. Tipos de pruebas estadísticas de hipótesis
    4. Chi-cuadrado
    5. Pruebas no paramétricas
    6. Distribuciones de Probabilidad
    7. Distribución de probabilidad continua
    8. Conclusiones
    9. Bibliografía
    10. Anexos

    Introducción

    Una variable aleatoria es un valor numérico que corresponde al resultado de un experimento aleatorio, como el número de caras que se obtienen al lanzar 4 veces una moneda, el número de lanzamientos de un dado hasta que aparece el seis, el número de llamadas que se reciben en un teléfono en una hora, el tiempo de espera a que llegue un autobús.

    Las variables aleatorias, como las estadísticas, pueden ser discretas o continuas.

    Las variables aleatorias permiten definir la probabilidad como una función numérica (de variable real) en lugar de como una función de un conjunto dado.

    Se dice que una variable aleatoria sigue una distribución uniforme si la función de densidad es constante en el intervalo en el que se encuentran todos los valores de la variable. La función de densidad o ley de probabilidad viene dada por:

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    Las distribuciones de probabilidad están relacionadas con las distribuciones de frecuencias. Una distribución de frecuencias teórica es una distribución de probabilidades que describe la forma en que se espera que varíen los resultados. Debido a que estas distribuciones tratan sobre expectativas de que algo suceda, resultan ser modelos útiles para hacer inferencias y para tomar decisiones en condiciones de incertidumbre.

    Una distribución de frecuencias es un listado de las frecuencias observadas de todos los resultados de un experimento que se presentaron realmente cuando se efectuó el experimento, mientras que una distribución de probabilidad es un listado de las probabilidades de todos los posibles resultados que podrían obtenerse si el experimento se lleva a cabo.

    Las distribuciones de probabilidad pueden basarse en consideraciones teóricas o en una estimación subjetiva de la posibilidad. Se pueden basar también en la experiencia.

    A continuación trataremos mas extensamente los conceptos de Variable Aleatoria, Valor Esperado, Pruebas Paramétricas y No-Paramétricas, Distribuciones de Probabilidad, Distribuciones Discretas y Continuas y Distribuciones Simétricas y Distribuciones Sesgadas.

    Variable Aleatoria

    Se denomina variable aleatoria, a una variable X que puede tomar un conjunto de valores {x0, x1, x2, … xn-1}, con probabilidades {p0, p1, p2, … pn-1}. Por ejemplo, en la experiencia de lanzar monedas, los posibles resultados son {cara, cruz}, y sus probabilidades son {1/2, 1/2}. En la experiencia de lanzar dados, los resultados posibles son {1, 2, 3, 4, 5, 6} y sus probabilidades respectivas son {1/6, 1/6, 1/6, 1/6, 1/6, 1/6}.

    Realicemos ahora la experiencia de hacer girar una ruleta y apuntar el número del sector que coincide con la flecha. En la ruleta de la izquierda de la figura los resultados posibles son {0, 1, 2, 3, 4, 5, 6, 7}, y la probabilidad de cada resultado es 1/8. En la ruleta de la derecha de la figura los posibles resultados son {0, 1, 2, 3}, y las probabilidades respectivas {1/4, 1/2, 1/8, 1/8}, proporcionales al ángulo del sector.

     Para ver la fórmula seleccione la opción "Descargar" del menú superior

    En los tres primeros ejemplos, la variable aleatoria X se dice que está uniformemente distribuida, ya que todos los resultados tienen la misma probabilidad. Sin embargo, en el último ejemplo, la variable aleatoria X, no está uniformemente distribuida.

    El problema crucial de la aplicación de los métodos de Montecarlo es hallar los valores de una variable aleatoria (discreta o continua) con una distribución de probabilidad dada por la función p(x) a partir de los valores de una variable aleatoria uniformemente distribuida en el intervalo [0, 1), proporcionada por el ordenador o por una rutina incorporada al programa.

    Para simular un proceso físico, o hallar la solución de un problema matemático es necesario usar gran cantidad de números aleatorios. El método mecánico de la ruleta sería muy lento, además cualquier aparato físico real genera variables aleatorias cuyas distribuciones difieren, al menos ligeramente de la distribución uniforme ideal. También, se puede hacer uso de tablas de cifras aleatorias uniformemente distribuidas, comprobadas minuciosamente en base a pruebas estadísticas especiales. Se emplean solamente cuando los cálculos correspondientes a la aplicación del método de Montecarlo se realiza a mano, lo que en estos tiempos resulta inimaginable. En la práctica, resulta más conveniente emplear los denominados números pseudoaleatorios, se trata de números que se obtienen a partir de un número denominado semilla, y la aplicación reiterada de una fórmula, obteniéndose una secuencia {x0, x1, x2, … xn} de números que imitan los valores de una variable uniformemente distribuida en el intervalo [0, 1).

    Se dice que una función

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    es una variable aleatoria si la "suerte" de realización de sus posibles valores puede establecerse con ayuda de los resultados de la experiencia aleatoria en estudio, cuyo espacio muestral es Ω . Se trata, en definitiva,  de una funciσn que asigna un valor numιrico a cada uno de los resultados de una experiencia aleatoria.

    En estadística y teoría de probabilidad una variable aleatoria se define como el resultado numérico de un experimento aleatorio. Matemático es una mapa

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    que da un valor numérico a cada suceso en el espacio Ω de los resultados posibles del experimento.

    Se distinguen entre:

    • variables aleatorias discretas y
    • variables aleatorias continuas.

    Dado una variable aleatoria X se pueden calcular estimadores estadísticos diferentes como la media (Media aritmética, Media geométrica, Media ponderada) y valor esperado y varianza de la distribución de probabilidad de X.

    Se puede pensar en una variable aleatoria como un valor o una magnitud que cambia de una presentación a otra, sin seguir una secuencia predecible. Los valores de una variable aleatoria son los valores numéricos correspondientes a cada posible resultado de un experimento aleatorio.

    La distribución de probabilidad de una variable aleatoria proporciona una probabilidad para cada valor posible, y estas probabilidades deben sumar 1.

    Valor esperado de una variable aleatoria

    El valor esperado es una idea fundamental en el estudio de las distribuciones de probabilidad.

    Para obtener el valor esperado de una variable aleatoria discreta, se multiplica cada valor que la variable puede tomar por la probabilidad de presentación de ese valor y luego se suman esos productos. Es un promedio pesado de los resultados que se esperan en el futuro. El valor esperado pesa cada resultado posible con respecto a la frecuencia con que se espera se que presente. En consecuencia, las presentaciones más comunes tienen asignadas un peso mayor que las menos comunes.

    El valor esperado también puede ser obtenido a partir de estimaciones subjetivas. En ese caso, el valor esperado no es más que la representación de las convicciones personales acerca del resultado posible.

    En muchas situaciones, encontraremos que es más conveniente, en términos de los cálculos que se deben hacer, representar la distribución de probabilidad de una variable aleatoria de una manera algebraica. Al hacer esto, podemos llevar a cabo cálculos de probabilidad mediante la sustitución de valores numéricos directamente en una fórmula algebraica.

    Sugerencia:

    El valor esperado de una variable aleatoria discreta es un promedio pesado del valor de cada resultado posible multiplicado por la probabilidad de dicho resultado. Aunque existen muchos valores diferentes posibles que la variable aleatoria puede tomar, el valor esperado es sólo un número.

    Tratamiento de Variables Aleatorias

    Variables aleatorias discretas.

    Variable que toma un número finito o infinito de valores numerables. Variable aleatoria que puede tomar sólo un número limitado de valores sean x1, x2, x3, … xn los distintos valores que puede tomar la variable aleatoria.

    Y p(x1), p(x2),… p(xn) su probabilidad.

    Los pares de valores (xj, p(xj)) constituyen la distribución de probabilidades de la variable aleatoria.

    p(x) se denomina función de probabilidad, y debe cumplir con las siguientes propiedades:

    0 < p(xj) < 1 (p(x) es una probabilidad, y por lo tanto debe tomar valores entre 0 y 1).

    å p(xj) = 1 (la suma de probabilidades repartidas entre todos los valores de la variable debe ser igual a 1).

    De la misma manera que calculamos frecuencias acumuladas, podemos acumular probabilidades, obteniendo la función de distribución de probabilidades:

    F(x) = å p(xj)

    Esta función representa la probabilidad de que la variable aleatoria sea menor o igual que un determinado valor:

    F(xj) = P (X < xj)

    Gráficamente, la función aumenta de "a saltos", ya que entre dos valores consecutivos de una variable discreta, no puede tomar valores intermedios.

    Para simular la ruleta situada a la derecha de la figura, se procede del siguiente modo: se hallan las probabilidades de cada resultado, proporcionales al ángulo de cada sector y se apuntan en la segunda columna, la suma total debe de dar la unidad. En la tercera columna, se escriben las probabilidades acumuladas.

    Resultado

    Probabilidad

    P. acumulada

    0

    0.25

    0.25

    1

    0.5

    0.75

    2

    0.125

    0.875

    3

    0.125

    1

    Se sortea un número aleatorio g uniformemente distribuido en el intervalo [0, 1), el resultado del sorteo se muestra en la figura. En el eje X se sitúan los distintos resultados que hemos nombrado x0, x1, x2, x3. En el eje vertical las probabilidades en forma de segmentos verticales de longitud igual a la probabilidad pi de cada uno de los resultados, dichos segmentos se ponen unos a continuación de los otros, encima su respectivo resultado xi. Se obtiene así una función escalonada. Cuando se sortea una variable aleatoria g, se traza una recta horizontal cuya ordenada sea g. Se busca el resultado cuya abscisa sea la intersección de dicha recta horizontal y del segmento vertical, tal como se señala con flechas en la figura. Si el número aleatorio g está comprendido entre 0.25 y 0.75 se obtiene el resultado denominado x1.

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    La tabla describe el sorteo de una variable discreta, siendo g una variable aleatoria uniformemente distribuida en el intervalo [0,1).

    Condición

    Resultado

    0<=g<0.25

    0

    0.25<=g<0.75

    1

    0.75<=g<0.875

    2

    0.875<=g<1

    3

    Una vez visto un caso particular, el problema general puede formularse del siguiente modo:

    Si X es una variable aleatoria discreta cuyos posible resultados son {x0, x1, x2 , … xn-1} y sean {p0, p1, p2, … pn} sus respectivas probabilidades. Al sortear un número aleatorio g, uniformemente distribuido en el intervalo [0, 1), se obtiene el resultado xi, si se verifica la siguiente condición

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    Variables aleatorias continuas

    Variable que toma un valor infinito de valores no numerables. Variable aleatoria que puede tomar cualquier valor dentro de un intervalo dado de valores.

    En este caso, en lugar de trabajar con la probabilidad de valores particulares de la variable, resulta más apropiado calcular probabilidades asociadas a intervalos. Para distribuir propiedades se usa una función que mide "concentración" de probabilidades alrededor de un punto, que se denomina función de densidad de probabilidad (fdp) y se denota como f(x).

    Una función de densidad de probabilidad debe cumplir con las siguientes propiedades:

    • F(x) > 0 (la función es no negativa para cualquier valor de x, f(x) no es una probabilidad, y puede valer más de 1).
    • ò f(x) dx = 1 (la acumulada para todos los valores de la variable suma 1, el área bajo la curva de la función vale 1).

    La función de distribución para una variable aleatoria continua se calcula:

    F(a) = P(X < a) = ò f(x) dx

    La probabilidad de que la variable esté dentro de un intervalo [a – b] se calcula:

    P (a< x < b) = F(b) – F(a)

    La probabilidad de que la variable tome un valor particular se puede expresar como:

    F(c) – F(c) = 0

    Esto explica la idea de que para el caso de una variable aleatoria continua no tiene sentido trabajar con la probabilidad de un valor particular.

    Comprendido el concepto de transformación de una variable discreta, y el procedimiento para obtener un resultado cuando se efectúa el sorteo de una variable aleatoria uniformemente distribuida, no reviste dificultad el estudio de la variable continua. Si X es una variable aleatoria continua, y p(x) es la probabilidad de cada resultado x, construimos la función que se representa en la figura.

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    El resultado del sorteo de una variable g uniformemente distribuida en el intervalo [0 ,1) se obtiene a partir de la ecuación.

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    Gráficamente, se obtiene trazando una recta horizontal de ordenada g. La abscisa x del punto de corte con la función es el resultado obtenido. En la figura se señala mediante flechas.

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    Un ejemplo sencillo es la transformación de una variable aleatoria que está uniformemente distribuida en el intervalo [a, b) si

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    Integrando (2) obtenemos la función

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    Características de las variables aleatorias

    Una variable aleatoria se caracteriza además de las funciones de probabilidad, ó de densidad y distribución por una serie de medidas que ayudan a describir la tendencia, dispersión, asimetría y apuntamiento de sus valores, tales pueden ser el valor esperado, la desviación estándar, los cuantiles, coeficientes de variación, asimetría y apuntamiento.

    Valor Esperado   

    Se entiende por valor esperado al medio aritmético probabilístico el cual puede ser calculado con la siguiente fórmula: XE = å n XK . PK

    Donde: 

    XE = Valor esperado.

    XK = Valor del resultado K.

    PK = Probabilidad del resultado K.

    n  = Número total de resultados.

    Los promedios son parte de nuestro diario vivir. Nosotros escuchamos el promedio de lluvia en una ciudad en un año, el promedio de temperatura en Agosto, el promedio de edad de los trabajadores de una empresa, entre otros. El objetivo de esta sección es mostrar algunas características numéricas de una distribución poblacional. El más común promedio utilizado en estadística es la media o valor esperado o esperanza matemática.

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    Valor esperado o esperanza matemática

    Sea X una variable aleatoria discreta. Se denomina esperanza matemática de X o valor esperado, y se denota bien

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    o bien

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    , a la cantidad que se expresa como:

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    Donde

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    es el conjunto numerable de índices de los valores que puede tomar la variable (por ejemplo

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    para un número finito de valores de la variable aleatoria o bien

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    para una cantidad infinita numerable de los mismos.

    Si X es una variable aleatoria continua, se define su esperanza a partir de la función de densidad como sigue:

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    Observación:

    Recordamos que si

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    y por tanto tiene sentido calcular su esperanza matemática:

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    Por las analogías existente entre la definición de media aritmética y esperanza matemática, las propiedades de linealidad de la primera se trasladan a la segunda, como es inmediato comprobar:

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    ¿Qué es una distribución de probabilidad, una variable aleatoria y un valor esperado?

    Distribución de Probabilidad

    Una distribución de probabilidad la podemos concebir como una distribución teórica de frecuencia, es decir, es una distribución que describe como se espera que varíen los resultados. Dado que esta clase de distribuciones se ocupan de las expectativas son modelos de gran utilidad para hacer inferencias y tomar decisiones en condiciones de incertidumbre.

    Variable Aleatoria

    Es aquella que asume diferentes valores a consecuencia de los resultados de un experimento aleatorio.

    Estas variables pueden ser discretas o continuas. Si se permite que una variable aleatoria adopte sólo un número limitado de valores, se le llama variable aleatoria discreta. Por el contrario, si se le permite asumir cualquier valor dentro de determinados límites, recibe el nombre de variable aleatoria continua.

    El Valor Esperado

    El valor esperado es un concepto fundamental en el estudio de las distribuciones de probabilidad. Desde hace muchos años este concepto ha sido aplicado ampliamente en el negocio de seguros y en los últimos veinte años ha sido aplicado por otros profesionales que casi siempre toman decisiones en condiciones de incertidumbre.

    Para obtener el valor esperado de una variable aleatoria discreta, multiplicamos cada valor que ésta puede asumir por la probabilidad de ocurrencia de ese valor y luego sumamos los productos. Es un promedio ponderado de los resultados que se esperan en el futuro.

    Tipos de pruebas estadísticas de hipótesis

    Uno de los aspectos más importantes de las estadísticas en la investigación es comprender que para poder utilizar una prueba estadística el experimento tiene que cumplir con los supuestos que exige la prueba.

    Las pruebas de hipótesis pueden ser paramétricas, libres de distribución y no-paramétricas.

    1. Pruebas paramétricas

    Requieren

    1. variables medidas en la escala de razón o intervalar
    2. análisis de un parámetro de la población y otros requisitos que dependen de la prueba en específico.

    La robustez en las pruebas paramétricas

    Una prueba paramétrica es robusta si a pesar de no cumplir cabalmente con todos los requisitos se puede emplear sin que deforme mucho las conclusiones. Cuando la prueba no es robusta es necesario utilizar otra prueba libre de distribución o no paramétrica.

    1. Pruebas libres de distribución
    1. La prueba estadística no depende de la forma de la distribución de la población

      1. Pruebas no paramétricas
    2. Los datos están en escala nominal u ordinal

    No tienen que ver con los parámetros de la población

    ¿Por qué se llaman pruebas paramétricas?

    Porque comparan los grupos a través de una medida de tendencia central (parámetro): la media aritmética. Como vemos, este valor adquiere una vital importancia.

    ¿En qué condiciones la media es realmente un valor representativo de una serie de datos? Como sabemos, existen otras medidas de tendencia central que, según la distribución de los datos, pueden llegar a ser más representativas. Cuando los datos siguen una distribución normal la media actúa como una buena medida resumen. Recordemos algunas de las características de esta distribución:

    Viene determinada por dos parámetros, la media (µ) y la desviación típica (*). Es acampanada y simétrica alrededor de la media.

    Recordemos que, por ejemplo, si se cumplen los supuestos de normalidad (fig. 1.):

    El valor de la µ ± 1* incluirá aproximadamente el 68,3% central de las observaciones.

    El valor de la µ ± 2* incluirá aproximadamente el 95,3% central de las observaciones.

    El valor de la µ ± 3* incluirá prácticamente todas las observaciones, el 99,7%.

    Conocidas la µ y la *, se puede reconstruir la distribución de las observaciones.

    La igualdad de variancias es el otro gran obstáculo que deberemos salvar. Dos distribuciones pueden tener el mismo valor en el parámetro media, mostrando la primera valores cercanos a la media (poca dispersión, variancia pequeña) y la segunda valores alejados de dicho parámetro (más dispersión, gran variancia). Como vemos estas dos variables siguen diferentes patrones, aunque tienen en común el mismo valor de la media (fig. 2).

    ¿Por qué tienen estas asunciones? Las pruebas paramétricas asumen que los datos de las variables a comparar se distribuyen de igual forma, pero que entre ellos existe un desplazamiento fijo; es decir, para cada valor de una muestra hay un valor igual pero incrementado en un valor constante (K), al que podríamos llamar desplazamiento (fig. 3). Si este valor constante se acerca al valor 0, no habría diferencias entre los grupos, ya que existiría un solapamiento entre los valores a comparar. Cuanto más se aleje del valor 0, mayores serán las diferencias.

    Obsérvese la importancia de asumir que este valor de desplazamiento de una muestra a la otra es constante. Si estamos comparando dos diferentes tratamientos, por ejemplo un placebo y un principio activo, en dos muestras que son homogéneas basalmente, este valor K será el efecto que podremos imputar al principio activo en cada caso: la diferencia entre medias representa, no el efecto promedio, sino el efecto del tratamiento en cada caso. Si por el contrario este efecto no fuera constante, ya no se cumplirían los supuestos de estas pruebas.

     

    Fig. 1

    Fig. 2

    Fig. 3

    Para ver los gráficos seleccione la opción "Descargar" del menú superior

    Dentro de las pruebas paramétricas, se tienen para muestras grandes y para muestras pequeñas. Un supuesto que se aplica a ambas es que la muestra que se toma debe haber sido seleccionada en forma aleatoria o probabilística. En las pruebas paramétricas de muestra pequeña, se requiere el supuesto de que las muestras fueron extraídas de una población con distribución normal y cuando se trata de dos o más muestras también se requiere una prueba de igualdad de varianzas. Existen pruebas estadísticas por medio de las cuales se podría comprobar esto, sin embargo suele no dársele importancia a esto y se pasa por alto. El análisis de varianza, también se basa en el supuesto de normalidad de las poblaciones y en el de que sus varianzas son iguales.

    En las pruebas en las que se tienen menos supuestos, es en las de muestra grande, las cuales se pueden aplicar sin saber o comprobar si la población o poblaciones eran normales, estas pruebas se dice que son robustas, porque no es necesario que se cumpla dicho supuesto. Cuando la prueba que se requiere no es robusta, no es necesario correr el riesgo de estar equivocados en las conclusiones, en ellos. En cambio, se dispone de muchas pruebas estadísticas no paramétricas que tienen una aplicación semejante a las paramétricas de muestra pequeña en las que se tienen menos supuestos.

    Chi-cuadrado

    El llamado Test de Chi-cuadrado Es muy usual la necesidad de hacer una comparación global de grupos de frecuencias. Para este problema el método es diferente, pues el test que se utiliza se denomina Chi-Cuadrado de Pearson, y con ese test lo que queremos determinar es si la frecuencia observada de un fenómeno es significativamente igual a la frecuencia teórica prevista, o sí, por el contrario, estas dos frecuencias acusan una diferencia significativa para, por ejemplo, un nivel de significación del 5%. Las posibles aplicaciones son muchas: elección de un cartel turístico publicitario presentado a grupos de clientes; comparar la rentabilidad de un proyecto hotelero en dos espacios turísticos; determinar las preferencias o gustos de los turistas por determinados espacios geográficos, o por determinados servicios hoteleros, etc. El método que se sigue es el siguiente: 1) Se designan las frecuencias observadas con letras minúsculas y con letras mayúsculas las frecuencias esperadas o teóricas. 2) Las frecuencias se presentan en cuadros o tablas con un cierto número de columnas y de filas. Pueden ser tablas de 1 x 2, o de 2 x 2 etc. Aplicaremos el método con una tabla 1 x 2; y después con una tabla 2 x 2. Supongamos que se ha comprobado fallas leves ( atributos) en dos proyectos turísticos que no han satisfecho plenamente a la clientela. Estas fallas han ocurrido en los sitios turísticos A y B. O sea, de un total de 102 fallas, 59 han tenido lugar en el sitio A y 43 fallas en el sitio B. Formulamos la hipótesis nula que no existe relación entre el número de fallas y el hecho de que hayan ocurrido en los sitios A y B. Si la hipótesis nula no se rechaza, quiere decir que cada sitios es independiente del hecho y entonces no existe razón para suponer que por ejemplo A es menos predispuesto a fallas que B. Si se rechaza la hipótesis nula, entonces alguno de los dos sitios si está propenso a mayor número de fallas. Para este análisis se aplica el test Chi-cuadrado de Pearson. Vamos a observar los datos empíricos (59 y 43= 102) y los datos esperados o sea una repartición por igual de las fallas entre el proyecto A y el B (51 y 51 = 102). a = 59 b = 43 A = 51 B = 51 La fórmula que permite obtener el Chi-cuadrado incluye una corrección igual a O,50 por ser muestras pequeñas y su valor estimado con la fórmula es 2,206. Al ir a la tabla del encontramos que para un grado de libertad, el valor del Chi-cuadrado debe ser igual o mayor que 3,841 para un nivel de significación del 5%. Dado que el valor encontrado en el anterior cálculo es igual a : 2,206, podemos admitir que la hipótesis nula es correcta, pues no existe razón para suponer que se produzcan más fallas en el espacio turístico A que en el espacio B. Si la tabla es de 2 x 2 De nuevo el fin del test es comparar las frecuencias observadas empíricamente de dos muestras, con las frecuencias esperadas o teóricas. Dos procedimientos de refrigeración ("x" e "y") se han ensayado en el Dpto. de Alimentos y Bebidas de un Hotel con el fin de aumentar la duración de las materias primas perecederas. Los resultados son según atributos cualitativos los siguientes: Primero veremos las frecuencias empíricas u observadas: Refrigeración X : fracasos =77; éxitos =63 y el total 140. Y para la Refrigeración Y: fracasos = 54; éxitos = 66 y el total 120. Los totales de las tres columnas son: 131,129 y 260. En seguida veremos las frecuencias teóricas o esperadas: Refrigeración X : fracasos = 70,54; éxitos=69,46 y el total 140. Refrigeración Y : fracasos =60,46; éxitos = 59,54 y el total 120. Todos los totales de las tres columnas son; 131,129 y 260. Las frecuencias teóricas fueron estimadas de esta manera:a1 = 131 x 140 / 260 = 70,54; b1 = 129 x 140 / 260 = 69,46; a2 = 131 x 120 / 260 = 60,46; b2 = 129 x 120 / 260 = 59,54. Cuando las muestras son pequeñas se aplica en la fórmula una corrección igual a 0,50. Y al aplicar la fórmula del Chi-cuadrado obtenemos el valor de: 2,200. De nuevo se compara el resultado 2,20 con el de la tabla para un grado de libertad y para el nivel de significación del 5% con un valor de 3,841. La diferencia entre las dos muestras no es significativa y no se puede llegar a ninguna conclusión razonada sobre los dos procedimientos de refrigeración.

    Distribución Chi-cuadrado de Pearson

    Tabla de la función de distribución:

    P(

    n≤ z) = p

    z: valor tabulado

    p: probabilidad acumulada

    n: grados de libertad

    Para ver el cuadro seleccione la opción "Descargar" del menú superior

    Pruebas no paramétricas:

    Se denominan pruebas no paramétricas aquellas que no presuponen una distribución de probabilidad para los datos, por ello se conocen también como de distribución libre (distribution free). En la mayor parte de ellas los resultados estadísticos se derivan únicamente a partir de procedimientos de ordenación y recuento, por lo que su base lógica es de fácil comprensión. Cuando trabajamos con muestras pequeñas (n < 10) en las que se desconoce si es válido suponer la normalidad de los datos, conviene utilizar pruebas no paramétricas, al menos para corroborar los resultados obtenidos a partir de la utilización de la teoría basada en la normal.

    En estos casos se emplea como parámetro de centralización la mediana, que es aquel punto para el que el valor de X está el 50% de las veces por debajo y el 50% por encima.

    • Prueba de Wilcoxon de los rangos con signo

    Esta prueba nos permite comparar nuestros datos con una mediana teórica (por ejemplo un valor publicado en un artículo).

    Llamemos M0 a la mediana frente a la que vamos a contrastar nuestros datos, y sea X1, X2 .. Xn los valores observados. Se calcula las diferencias X1-M0, X2-M0, …, Xn-M0. Si la hipótesis nula fuera cierta estas diferencias se distribuirían de forma simétrica en torno a cero.

    Para efectuar esta prueba se calculan las diferencias en valor absoluto |Xi-M0| y se ordenan de menor a mayor, asignándoles su rango (número de orden). Si hubiera dos o más diferencias con igual valor (empates), se les asigna el rango medio (es decir que si tenemos un empate en las posiciones 2 y 3 se les asigna el valor 2.5 a ambas). Ahora calculamos R+ la suma de todos los rangos de las diferencias positivas, aquellas en las que Xi es mayor que M0 y R- la suma de todos los rangos correspondientes a las diferencias negativas. Si la hipótesis nula es cierta ambos estadísticos deberán ser parecidos, mientras que si nuestros datos tienen a ser más altos que la mediana M0, se reflejará en un valor mayor de R+, y al contrario si son más bajos. Se trata de contrastar si la menor de las sumas de rangos es excesivamente pequeña para ser atribuida al azar, o, lo que es equivalente, si la mayor de las dos sumas de rangos es excesivamente grande.

    • Prueba de Wilcoxon para contrastar datos pareados

    El mismo razonamiento lo podemos aplicar cuando tenemos una muestra de parejas de valores, por ejemplo antes y después del tratamiento, que podemos denominar (X1,Y1), (X2,Y2), … ,(Xn,Yn). De la misma forma, ahora calcularemos las diferencias X1-Y1, X2-Y2, … , Xn-Yn y las ordenaremos en valor absoluto, asignándoles el rango correspondiente. Calculamos R+ la suma de rangos positivos (cuando Xi es mayor que Yi), y la suma de rangos negativos R-. Ahora la hipótesis nula es que esas diferencias proceden de una distribución simétrica en torno a cero y si fuera cierta los valores de R+ y R- serán parecidos.

    • Prueba de Mann-Whitney para muestras independientes

    Si tenemos dos series de valores de una variable continua obtenidas en dos muestras independientes: X1, X2, … , Xn, Y1, Y2, … , Ym, procederemos a ordenar conjuntamente todos los valores en sentido creciente, asignándoles su rango, corrigiendo con el rango medio los empates. Calculamos luego la suma de rangos para las observaciones de la primera muestra Sx, y la suma de rangos de la segunda muestra Sy. Si los valores de la población de la que se extrajo la muestra aleatoria de X se localizan por debajo de los valores de Y, entonces la muestra de X tendrá probablemente rangos más bajos, lo que se reflejará en un valor menor de Sx del teóricamente probable. Si la menor de las sumas de rangos es excesivamente baja, muy improbable en el caso de que fuera cierta la hipótesis nula, ésta será rechazada.

    Existen más pruebas no paramétricas de entre las cuales tenemos:

    • Prueba de Kruskal-Wallis para comparar K muestras
    • Prueba de Friedman para comparar K muestras pareadas (bloques)
    • Coeficiente de correlación de Spearman para rangos
    • Prueba de rachas de Wald-Wolfowitz

    Distribuciones de Probabilidad

    Toda distribución de probabilidad es generada por una variable aleatoria x, la que puede ser de dos tipos:

    1. Variable aleatoria discreta (x). Se le denomina variable porque puede tomar diferentes valores, aleatoria, porque el valor tomado es totalmente al azar y discreta porque solo puede tomar valores enteros y un número finito de ellos.

    Ejemplos:

    • x® Variable que nos define el número de burbujas por envase de vidrio que son generadas en un proceso dado.
    • x® 0, 1, 2, 3, 4, 5, etc, etc. burbujas por envase
    • x® Variable que nos define el número de productos defectuosos en un lote de 25 productos.
    • x® 0, 1, 2, 3,….,25 productos defectuosos en el lote
    • x® Variable que nos define el número de alumnos aprobados en la materia de probabilidad en un grupo de 40 alumnos.
    • x® 0, 1, 2, 3, 4, 5,….,40 alumnos aprobados en probabilidad

    Con los ejemplos anteriores nos damos cuenta claramente que los valores de la variable x siempre serán enteros, nunca fraccionarios.

    1. Variable aleatoria continua (x). Se le denomina variable porque puede tomar diferentes valores, aleatoria, porque los valores que toma son totalmente al azar y continua porque puede tomar tanto valores enteros como fraccionarios y un número infinito de ellos. 

    Ejemplos:

    • x® Variable que nos define el diámetro de un engrane en pulgadas
    • x® 5.0", 4.99, 4.98, 5.0, 5.01, 5.0, 4.96
    • x® Variable que nos define la longitud de un cable o circuito utilizado en un arnés de auto
    • x® 20.5 cm, 20.1, 20.0, 19.8, 20,6, 20.0, 20.0
    • x® Variable que nos define la concentración en gramos de plata de algunas muestras de mineral
    • x® 14.8gramos, 12.0, 10.0, 42.3, 15.0, 18.4, 19.0, 21.0, 20.8

    Como se observa en los ejemplos anteriores, una variable continua puede tomar cualquier valor, entero o fraccionario, una forma de distinguir cuando se trata de una variable continua es que esta variable nos permite medirla o evaluarla, mientras que una variable discreta no es medible, es una variable de tipo atributo, cuando se inspecciona un producto este puede ser defectuoso o no, blanco o negro, cumple con las especificaciones o no cumple, etc, etc.

    Las variables descritas anteriormente nos generan una distribución de probabilidad, las que pueden ser. 

    1. Distribución de probabilidad discreta.
    2. Distribución de probabilidad continua.

    Las características de cada una de las distribuciones anteriores se mencionarán a continuación:

    Distribución de probabilidad discreta

    Características:

    1. Es generada por una variable discreta (x).

    x® Variable que solo toma valores enteros

    x® 0, 1, 2, 3, 4, 5, 6, 7, 8, … etc,etc.

    1. p(xi)³ 0 Las probabilidades asociadas a cada uno de los valores que toma x deben ser mayores o iguales a cero.
    2. S p(xi) = 1 La sumatoria de las probabilidades asociadas a cada uno de los valores que toma x debe ser igual a 1.

    Cálculo de media y desviación estandar para una distribución discreta

    1. Donde:

      m = media de la distribución

      E(x) = valor esperado de x

      xi = valores que toma la variable

      p(xi) = probabilidad asociada a cada uno de los valores de la variable x

    2. Media o valor esperado de x.- Para determinar la media de la distribución discreta se utiliza la siguiente fórmula:
    3. Desviación estándar. Para determinar la desviación estándar de la distribución discreta se utiliza la siguiente fórmula:

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    Donde:

    s = desviación estándar

    m = media o valor esperado de x

    xi = valores que toma la variable x

    p(xi) = probabilidad asociada a cada uno de los valores que toma x

    Ejemplos:

      1. Solución:

        Haciendo uso de un diagrama de árbol, usando las literales siguientes, se obtiene el espacio muestral d como se muestra a continuación;

        N = no sufre de algún desperfecto en el motor los primeros 12 meses de uso

        S = sufre de algún desperfecto en el motor los primeros 12 meses de uso

         Para ver el gráfico seleccione la opción "Descargar" del menú superior

        d = { NNN, NNS, NSN, NSS, SNN, SNS, SSN, SSS}

         x = variable que nos define el número de autos que no sufre de algún desperfecto en el motor durante los primeros 12 meses de uso

         x = 0, 1, 2 o 3 autos que no sufren algún desperfecto en el motor en los primeros 12 meses de uso

        p(x=0)=p(SSS)=(0.02)(0.02)(0.02)=0.000008

        p(x=1)=p(NSS,SNS, SSN)=(0.98)(0.02)(0.02)+(0.02)(0.98)(0.02)+(0.02)(0.02) (0.98)=

        =0.001176

        p(x=2)=p(NNS,NSN,SNN)=(0.98)(0.98)(0.02)+(0.98)(0.02)(0.98)+ (0.02)(0.98)(0.98)==0.057624

        p(NNN) = (0.98)(0.98)(0.98) =0.941192

        Por tanto la media o valor esperado se determina de la siguiente manera:

        m =E(x) = (0)(0.000008)+(1)(0.001176)+(2)(0.057624)+(3)(0.94119)=

        =0.0+0.001176+0.115248+2.823576=2.94@ 3 autos que no sufren algún desperfecto en el motor en los primeros 12 meses de uso

        La interpretación de la media o valor esperado es; se espera que los 3 autos probados no sufran de algún desperfecto en el motor en los primeros 12 meses de uso.

        s ==

        =± 0.2497@ ± 0.0

        autos que no sufren algún desperfecto en su motor en los primeros 12 meses de uso.

        Interpretación:

        En este experimento se espera que los 3 autos probados no sufran de algún desperfecto en su motor en los primeros 12 meses de uso y la variabilidad de este experimento es de cero.

         Nota:

        La media y la desviación estándar se redondean a un valor entero ya que son la media y desviación de una distribución de probabilidad discreta.

      2. Según estadísticas la probabilidad de que el motor de un auto nuevo, de cierto modelo, y marca sufra de algún desperfecto en los primeros 12 meses de uso es de 0.02, si se prueban tres automóviles de esta marca y modelo, encuentre el número esperado de autos que no sufren de algún desperfecto en los primeros doce meses de uso y su desviación estándar.

        Solución:

        También haciendo uso de in diagrama de árbol, se obtiene el espacio muestral d

        a)

        D = objeto defectuoso

        N = objeto no defectuoso

        d ={ DDD, DDN, DND, DNN, NDD, NDN, NND, NNN}

        Este espacio muestral ha sido obtenido haciendo uso de un diagrama de árbol,

        x = Variable que nos define el número de objetos defectuosos encontrados

        x = 0, 1, 2 o 3 objetos defectuosos

        p(x=0)=p(NNN)=(0.9)(0.9(0.9)=0.729

        p(x=1)=p(DNN, NDN, NND)=(0.1)(0.9)(0.9)+(0.9)(0.1)(0.9)+(0.9)(0.9)(0.1)=0.243

        p(x=2)=p(DDN, DND, NDD)=(0.1)(0.1)(0.9)+(0.1)(0.9)(0.1)+(0.9)(0.1)(0.1)=0.027

        p(x=3)=p(DDD)=(0.1)(0.1)(0.1)=0.001

        Distribución de probabilidad

      3. Se ha detectado en una línea de producción que 1 de cada 10 artículos fabricados es defectuoso; se toman de esa línea tres artículos uno tras otro, a) obtenga la distribución de probabilidad del experimento, b) encuentre el número esperado de artículos defectuosos en esa muestra y su desviación estándar.

      x

      0

      1

      2

      3

      P(x)

      0.729

      0.243

      0.027

      0.001

      b) (0)(0.729)+(1)(0.243)+(2)(0.027)+(3)(0.001)=

      = 0.0 + 0.243 + 0.054 + 0.003 = 0.3 @ 0 productos defectuosos

      Interpretación:

      Se espera que ninguno de los productos inspeccionados sea defectuoso.

       

      =± 0.6 =± 1 producto defectuoso

      Interpretación:

      En este experimento se espera que ninguno de los productos inspeccionados sea defectuoso, pero los resultados de este experimento pueden variar en ± 1 producto defectuoso, por lo que al inspeccionar los 3 productos el numero de productos defectuosos puede variar desde –1 producto defectuoso, hasta 1 producto defectuoso, pero, ¿es posible obtener –1 producto defectuoso?, claro que esto no puede ocurrir, luego el número de productos defectuosos en el experimento variará de 0 a 1 producto defectuoso solamente.

      Solución:

      Se obtiene el espacio muestral d , de la misma forma que se ha hecho en los ejemplos anteriores;

      B = se puede el pozo que se perfora

      N = no se puede beneficiar el pozo que se perfora

      d = { BBB, BBN, BNB, BNN, NBB, NBN, NNB, NNN}

      x = variable que nos define el número de pozos que se pueden beneficiar

      x = 0, 1, 2 o 3 pozos que se pueden beneficiar

      p’(x = 0) = p(NNN) = (0.7)(0.7)(0.7)= 0.343

      p(x = 1) = p(BNN, NBN, NNB) = (0.3)(0.7)(0.7)(3)=0.441

      p(x = 2) = p(BBN, BNB, NBB) = (0.3)(0.3)(0.7)(3)=0.189

      p(x = 3) = p(BBB) =(0.3)(0.3)(0.3)= 0.027

      @ 1 pozo beneficiado

      Interpretación:

      Se espera que solo 1 de los tres pozos perforados sea el que pueda ser beneficiado.

      Interpretación:

      La cantidad esperada de pozos que se pueden beneficiar puede variar en 1 ± 1 pozo, esto es la cantidad de pozos que se pueden beneficiar puede variar de 0 a 2 pozos.

    1. Según estadísticas, la probabilidad de que un pozo petrolero que se perfore en cierta región pueda ser beneficiado es de 0.30. Se perforan tres pozos en esa región, encuentre el número esperado de pozos que pueden ser beneficiados y su desviación estándar.
    2. La distribución de probabilidad de x , el número de defectos por cada 10 metros de una tela sintética en rollos continuos de ancho uniforme , es

    x

    0

    1

    2

    3

    4

    p(x)

    0.41

    0.37

    0.16

    0.05

    0.01

    1. Determine la distribución de probabilidad acumulada de x; P(x).
    2. Determine el número esperado de defectos por cada 10 metros de tela sintética en rollos continuos de ancho uniforme y la desviación estándar del número de defectos por cada 10 metros de tela …..
    3. Determine la probabilidad de que en 10 metros de tela sintética se encuentren como máximo 2 defectos.
    4. Determine la probabilidad de que en 10 metros de tela sintética se encuentren por lo menos 2 defectos.

    Solución:

    a)

    X

    0

    1

    2

    3

    4

    p(x)

    0.41

    0.37

    0.16

    0.05

    0.01

    P(x)

    0.41

    0.78

    0.94

    0.99

    1.0

    b)

    @ 1 defecto

    Interpretación:0.16, 0.05 ,0.01

    Se espera que por cada 10 metros de tela se encuentre un defecto.

    Interpretación:

    El número de defectos esperado puede variar en ± 1 defecto, es decir que el número de defectos esperado por cada 10 metros de tela puede variar de 0 a 2.

    c) p(x £ 2)= p(x=0) + p(x=1) + p(x=2) = 0.41+0.37+0.16 = 0.94

    d) p(x ³ 2) = p(x=2) + p(x=3) + p(x=4) = 0.16 + 0.05 + 0.01= 0.22

    Ejemplo: Consideremos a la variable aleatoria X como la cantidad de águilas observadas cuando se lanzan dos volados. El espacio muestral es el conjunto {AA, AS, SA, SS} y se puede ver que la variable X puede tomar como valores 0, 1 y 2.

    Calculando las probabilidades tenemos:

    P(de no observar águilas)

    =

    P(SS)

    =

    P(X=0)

    =

    ¼

    P(de observar una águila)

    =

    P(SA È AS)

    =

    P(X=1)

    =

    2/4

    P(de observar dos águilas)

    =

    P(AA)

    =

    P(X=2)

    =

    ¼

    Si ahora se organizan estos resultados con el siguiente formato

    X

    P(X=x)

    0

    ¼

    1

    2/4

    2

    ¼

    se podrá explicar por qué se usa el nombre "distribución de probabilidad". E, incluso, con esta información se puede construir una gráfica de barras o un histograma como el que sigue:

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    Las propiedades de las distribuciones de variables discretas son dos, y que posteriormente, al hablar de las distribuciones de variables continuas, se repetirán de manera muy similar:

    1. 0  P(X=x)  1.
    2. P(X=x) = 1, o que es lo mismo: la suma de todas las probabilidades de los eventos posibles de una variable aleatoria es igual a la unidad.

    Hay que hacer notar que estas propiedades se enuncian suponiendo que conocemos el valor de la probabilidad, pero en la realidad ésto no ocurre, es decir que no sabemos la probabilidad y lo que se hace es trabajar con estimaciones. Precisamente esto nos lleva a modelos teóricos que estiman los resultados, los principales son los que a continuación se presentan.

    Modelos de distribuciones de probabilidad de variables discretas

    • Uniforme. Es la distribución donde todos los eventos elementales tienen la misma probabilidad. Por ejemplo: tirar un dado, donde la función P(X=x)=1/6 para valores de x=1,2,3,4,5,6.
    • Binomial. Es la que maneja la distribución de la probabilidad de obtener cierta cantidad de éxitos al realizar una cantidad de experimentos con probabilidad de éxito constante y con ensayos independientes.
    • Geométrica. Es la distribución de la probabilidad de realizar cierto número de experimentos antes de obtener un éxito.
    • Hipergeométrica. Es similar a la binomial, pero con un tamaño de muestra grande en relación al tamaño de la población. La función de Excel que proporciona sus valores es DISTR.HIPERGEOM

    De Poisson. Es la distribución de la probabilidad de que ocurra un evento raro en un periodo de tiempo, un espacio o un lugar. La función de Excel que da los valores de la distribución es POISSON

    Distribución de probabilidad continua

    Características:

    1. x® Es una variable que puede tomar tanto valores enteros como fraccionarios.

      x® 1.0, 3.7, 4.0, 4.6, 7.9, 8.0, 8.3, 11.5, …..,¥

    2. Es generada por una variable continua (x).
    3. f(x)³ 0 Las probabilidades asociadas a cada uno de los valores que toma x deben ser mayores o iguales a cero. Dicho de otra forma, la función de densidad de probabilidad deberá tomar solo valores mayores o iguales a cero. La función de densidad de probabilidad sólo puede estar definida en los cuadrantes I y II.
    4. La sumatoria de las probabilidades asociadas a cada uno de los valores que toma x debe ser igual a 1. El área definida bajo la función de densidad de probabilidad deberá ser de 1.

    Hasta el momento se han considerado las distribuciones de probabilidad para variables discretas, donde se podía asignar el valor que toma la función de probabilidad cuando la variable aleatoria tomaba un valor en concreto. Sin embargo, al considerar las variables continuas se encuentra uno el problema de que, lo más probable, los datos que se puedan recabar no sean completamente exactos, o dos o más de ellos no coincidan, por lo que se tienen que trabajar en intervalos y, en ese momento, modelar una función se convierte en un problema serio.

    Sin embargo, se pueden realizar aproximaciones y describir la probabilidad a través de modelos teóricos de probabilidad cuya gráfica es una línea continua, a diferencia de las variables discretas que le corresponde un histograma.

    Para clarificar cómo se realiza esta aproximación al modelo teórico consideremos el siguiente caso:

    Se han registrado los tiempos que le tomó a una empresa de mensajería entregar 190 paquetes con destinatarios diferentes dentro de una misma ciudad. Los datos se han agrupado en una distribución de frecuencias considerando intervalos de cinco días como sigue:

    Para ver el cuadro seleccione la opción "Descargar" del menú superior

    Supongamos que un posible cliente, conociendo esta información, quisiera saber qué probabilidad tiene de que su paquete sea entregado en dos días. El problema es que al manejar intervalos de cinco días estamos suponiendo que dentro de cada intervalo los datos se distribuyen uniformemente, cosa que no es real.

    Podríamos aumentar la muestra y seguir recogiendo información para hacer una distribución de frecuencias similar a la anterior, pero se tendría el mismo problema: dentro de cada intervalo se está presuponiendo que los datos se distribuyen uniformemente.

    Otra posible solución es reducir la amplitud de los intervalos, de tal suerte que podríamos tomar una amplitud de tres días por intervalo y hacer la siguiente distribución de frecuencias:

    Para ver el cuadro seleccione la opción "Descargar" del menú superior

    Al seguir reduciendo la amplitud a dos días se obtiene la distribución:

    Para ver el cuadro seleccione la opción "Descargar" del menú superior

    Y al reducirla a intervalos de un día se tiene la distribución:

    Para ver el cuadro seleccione la opción "Descargar" del menú superior

    Ahora, veamos. Lo que le interesa al futuro cliente es la probabilidad de que se haga una entrega en un cierto tiempo, por lo que habría que considerar las frecuencias relativas y, como antes, reducir la amplitud de los intervalos. Con esto se obtendrían las siguientes distribuciones de frecuencias:

    Para ver los cuadros seleccione la opción "Descargar" del menú superior

    Intervalos de dos días

    Intervalos de un día

    Y podríamos graficar tal información en histogramas para poder ver cómo se aproximan, si es que ocurre, los valores a una curva continua:

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    donde las barras rosas (y la línea roja) corresponden a los intervalos de cinco días; las barras y línea azules, a los intervalos de tres días; las barras y línea amarillas, a los intervalos de dos días; y las barras y líneas verdes, a los intervalos de un día.

    Se han incluido de una vez las líneas que unen los puntos medios de las barras del histograma porque se puede ver que las barras de las frecuencias relativas se "achaparran" y las líneas graficadas están tan separadas del lado izquierdo (en este caso) que no se puede hablar de una aproximación continua a una sóla línea.

    Una posible solución es utilizando la densidad del intervalo, que se va a definir como el cociente de la frecuencia relativa entre la amplitud del intervalo:

     

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    (De hecho, existe la función de densidad de una distribución de probabilidad, de donde se deriva esta definición de densidad del intervalo.)

    De esta manera, a las distribuciones de frecuencias anteriores se les puede añadir la columna correspondiente a la densidad:

    Intervalos de cinco días

    Intervalos de tres días

    Intervalos de dos días

    Intervalos de un día

    Para ver los cuadros seleccione la opción "Descargar" del menú superior

    y realizar los histogramas correspondientes, que quedan como sigue:

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    donde las barras rosas, y la línea roja, corresponden a los intervalos de cinco días; las barras y línea verdes, a los intervalos de tres días; las barra y línea amarillas, a los intervalos de dos días; y las barras y línea azules, a los intervalos de un día.

    Igual que en el caso anterior, se han graficado simultáneamente las barras y las líneas que unen los puntos medios de éstas para observar que con la densidad sí se aproximan los histogramas a una línea continua (que la mejor aproximación presentada es la línea azul) cuando los intervalos se reducen continuamente.

    El resultado es una línea continua que es la gráfica de una cierta función denominada función de densidad de la distribución probabilística.

    Ahora, considerando la manera en que se definió la densidad de un intervalo como:

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

     

    y recordando que la frecuencia relativa es la probabilidad de un evento (en el ejemplo de la mensajería sería la probabilidad de entregar un paquete dentro de un intervalo dado de tiempo):

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

     

    Entonces, despejando en el primer cociente la frecuencia relativa e igualando con esta segunda expresión obtenemos que

    probabilidad del evento = (densidad del intervalo)· (amplitud del intervalo)

    Es decir, que la probabilidad de que ocurra un evento corresponde al área de las barras del histograma hecho tomando en cuenta la densidad de los intervalos; y que cuando tales intervalos tienen una amplitud que tiende a cero, y la gráfica se convierte en la curva continua de la función de densidad, entonces la probabillidad de que un evento ocurra en un intervalo (a,b) es el área bajo la curva de la función en ese intervalo:

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    y, por tanto, el cálculo de tal probabilidad se realiza utilizando cálculo integral:

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

     

    donde f(x) es la función de densidad de la distribución probabilística correspondiente.

    Hay que estar conscientes de que en el caso de las variables continuas sólo se puede calcular la probabilidad de que un evento caiga dentro de un intervalo, debido a que la exactitud de los instrumentos de medición siempre es relativa y muy lejana a la "exactitud" de los cálculos matemáticos.

    Por esto, la probabilidad de que la variable aleatoria tome un valor exacto es nula:

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

     

    Esto se puede explicar de la siguiente manera: si, como ya dijimos, la probabilidad (frecuencia relativa) es igual a la densidad del intervalo por la amplitud del intervalo, entonces no importa qué tan grande sea la densidad de tal intervalo porque, como ya también se dijo, por ser variable continua la amplitud del intervalo tiende a cero y, por tanto, la probabilidad es igual a cero.

    Modelos de distribución de probabilidad de variables continuas

    Al igual que en el caso de las distribuciones de probabilidad de variables discreta, en el caso de las distribuciones de probabilidad de variables continuas se tienen varios modelos teóricos que en seguida presentamos.

    A la derecha de cada modelo aparece la función de densidad correspondiente a cada modelo.

    • Uniforme. Es la distribución en donde todos los eventos tienen la misma probabilidad.

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

     

    • Exponencial. Se utiliza para estudiar el tiempo entre dos sucesos. La función de Excel que le corresponde es DISTR.EXP.

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

     

    • Beta. Sirve para el estudio de variaciones, a través de varias muestras, de un porcentaje que representa algún fenómeno. La función DISTR.BETA del Excel sirve para obtener sus valores; y la función DISTR.BETA.INV proporciona los valores inversos de la función, es decir, se utiliza como parámetro la imagen de la función y regresa la variabla independiente.

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    • Gamma. Se utiliza para estudiar variables cuya distribución puede ser asimétrica. La función de Excel que le corresponde es DISTR.GAMMA; y la función DISTR.GAMMA.INV es la inversa de la anterior.

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    • ji cuadrada (c²). Es una distribución asociada a la prueba c², y se usa para comparar los valores observados con los esperados. La función DISTR.CHI de Excel sirve para este

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    • Normal. Es la distribución más utilizada porque la mayoría de las variables utilizadas en fenómenos sociales se distribuyen aproximadamente siguiendo este modelo. Es la que tocaremos a continuación y se le llama comúnmente distribución normal.

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    Calculo de media y desviación estándar para una distribución continua

    1. Para ver la fórmula seleccione la opción "Descargar" del menú superior

      Donde:

      m = E(x) = media o valor esperado de la distribución

      x = variable aleatoria continua

      f(x) = función de densidad de la distribución de probabilidad

    2. Media o valor esperado de x.- Para calcular la media de una distribución de probabilidad continua se utiliza la siguiente fórmula:
    3. Desviación estándar.- La fórmula para determinar la desviación estándar de una distribución continua es;

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    luego:

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    Ejemplo:

    1.   cuando 0£ x £ 3, f(x) = 0 para cualquier otro valor

      1. Diga si esta función nos define una distribución de probabilidad.
      2. Si la función define una distribución de probabilidad, entonces, determine su media y desviación estándar.
      3. Determine la probabilidad de que 1£ x < 2.
    2. Para la siguiente función,

    Solución: 

        1. x ® sí es una variable continua porque puede tomar cualquier valor entre 0 y 3
        2. f(x)³ 0, lo que se comprueba si damos diferentes valores a x para ver que valores toma f(x), dándonos cuenta de que efectivamente f(x) solo toma valores mayores o iguales a cero.

        x

        f(x)

        0

        0.0

        0.5

        0.02778

        1.0

        0.11111

        1.4

        0.21778

        2.1

        0.49

        2.7

        0.81

        3.0

        1.0

      1. Para comprobar que la sumatoria de las probabilidades que toma cada valor de x es de 1, se integra la función de 0 a 3 como se muestra a continuación:

      Para ver la fórmula seleccione la opción "Descargar" del menú superior

      A= área bajo la función

      Con las operaciones anteriores comprobamos que la función sí nos define una distribución de probabilidad continua.

    1. Para verificar que la función nos define una distribución de probabilidad, es necesario que cumpla con las características que se habían mencionado.
    2. Cálculo de media y desviación estándar. 

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    Las barrasnos indican la evaluación de la integral entre 0 y 3. 

    c) Para ver la fórmula seleccione la opción "Descargar" del menú superior

    La barra nos indica la evaluación de la integral de 1 a 2.

    Con las operaciones anteriores nos damos cuenta que para evaluar probabilidades para variables de tipo continuo, es necesario evaluar la función de densidad de probabilidad en el rango de valores que se desea; que vendría siendo el área que se encuentra entre f(x) y el eje de las x y entre el rango de valores definidos por la variable x.

    1.  , para -1< x < 2 y f(x)= 0 en cualquier otro caso

      1. Verifique la tercera condición de la definición de una distribución de probabilidad continua.
      2. Determine la media o valor esperado de la distribución de probabilidad.
      3. Encuentre la probabilidad de que 0< x £ 1.
    2. Suponga que el error en la temperatura de reacción, en oC, para un experimento controlado de laboratorio es una variable aleatoria continua x, que tiene la función de densidad de probabilidad:

    Solución:

    1. Como la tercera condición es que la sumatoria de las probabilidades asociadas a cada uno de los valores que toma x debe de ser 1, esto se comprueba de la siguiente manera:

    Para ver la fórmula seleccione la opción "Descargar" del menú superior

    Distribuciones simétricas y distribuciones sesgadas

    Se dice que la distribución es simétrica si se puede dividir en dos mitades que parecen ser la imagen una de la otra. En estos casos las frecuencias en los extremos de la distribución son idénticas. La gráfica puede tener diferentes formas. Una de estas formas es la de campana.

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    Otra forma es la rectangular

    Si la distribución tiene algunos valores extremos muy bajos, entonces en la gráfica se nota una cola larga y fina hacia la izquierda de la distribución y se dice que la distribución está sesgada negativamente o que tiene un sesgo a la izquierda.

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    Si la distribución tiene algunos valores extremos altos, entonces en la gráfica se nota una cola larga y fina hacia la derecha de la distribución y se dice que la distribución está sesgada positivamente o que tiene un sesgo a la derecha. 

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    La relación entre la gráfica de la distribución y las medidas de tendencia central y dispersión

    1. En distribuciones unimodales cuando la media, la moda y la mediana coinciden la distribución es simétrica.

      Para ver el gráfico seleccione la opción "Descargar" del menú superior

      Ejemplo

      La media, mediana y moda coinciden en la distribución

    2. Distribuciones unimodales cuando la media, la moda y la mediana coinciden
    3. Distribuciones unimodales cuando la media, la moda y la mediana no coinciden

    En distribuciones unimodales cuando la media, la moda y la mediana no coinciden la distribución es sesgada.

    Si la media es mayor que la mediana (la media a la derecha de la mediana) entonces la distribución está sesgada a la derecha (positivamente)

    Ejemplo

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    Si la media es menor que la mediana (la media a la izquierda de la mediana) entonces la distribución está sesgada a la izquierda (negativamente)

    Ejemplo

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    Nota

    En estos casos la media siempre está más cerca del sesgo que la mediana.

    Relación entre las gráficas de dos distribuciones con medidas de tendencia central y dispersión iguales o diferentes

    1. Si dos distribuciones tienen la misma desviación estándar, pero medias diferentes; entonces van a tener la misma forma. La diferencia consiste en que se encuentran desplazadas a lo largo del eje de x.

      Para ver el gráfico seleccione la opción "Descargar" del menú superior

    2. Dos distribuciones con desviación estándar igual, pero medias diferentes
    3. Dos distribuciones con medias iguales pero desviación estándar diferentes

    Si dos distribuciones tienen la misma media, pero sus desviaciones estándar son diferentes; entonces se diferencian en que la que tiene la desviación estándar más pequeña tiene los valores más concentrados alrededor de la media y por lo tanto es más "alta".

    Ejercicio

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    La relación entre la gráfica de la distribución y la gráfica de caja y bigote.

    1. Para ver el gráfico seleccione la opción "Descargar" del menú superior

    2. Si ambas partes de la caja son iguales (la mediana en el medio de la caja) y los dos bigotes también son iguales, aunque algo más largos que las partes de la caja entonces la distribución tiene tipo de campana (bell shaped distribution)

      Para ver el gráfico seleccione la opción "Descargar" del menú superior

      1. Si los bigotes y las partes de la caja son todos del mismo largo, entonces la distribución es rectangular o uniforme. Tiene la misma frecuencia en cada uno de sus valores.
      2. Si los bigotes son cortos y la caja muy larga la distribución tiene forma de U, con mucha concentración de valores en los extremos.
    3. Si los bigotes son diferentes y la mediana no se encuentra en el medio de caja entonces la distribución está sesgada. Negativamente, si el bigote y la parte de la caja largos se encuentran a la izquierda. Positivamente, si el bigote y la parte de la caja largos se encuentran a la derecha.

    Para ver el gráfico seleccione la opción "Descargar" del menú superior

    Conclusiones

    Una distribución de frecuencia es una tabla de resumen en la que los datos se disponen en agrupamientos o categorías convenientemente establecidas de clases ordenadas numéricamente.

    En esta forma las características más importantes de los datos se aproximan muy fácilmente, compensando así el hecho de que cuando los datos se agrupan de ese modo, la información inicial referente a las observaciones individuales de que antes se disponía se pierde a través del proceso de agrupamiento o condensación.

    La principal ventaja de usar una de estas tablas de resumen es que las principales características de los datos se hacen evidentes inmediatamente para el lector. La principal desventaja de tal tabla de resumen es que no podemos saber como se distribuyen los valores individuales dentro de un intervalo de clase particular sin tener acceso a los datos originales. El punto medio de la clase, sin embargo, es el valor usado para representar todos los datos resumidos en un intervalo particular.

    El punto medio de una clase (o marca de clase) es el punto a la mitad de los límites de cada clase y es representativo de los datos de esa clase.

    La probabilidad es la posibilidad u oportunidad de que suceda un evento particular. La probabilidad involucrada es una porción o fracción cuyo valor varía entre cero y uno exclusivamente. Observamos un evento que no tiene posibilidad de ocurrir (es decir, el evento nulo), tiene una probabilidad de cero, mientras que un evento que seguramente ocurrirá (es decir, el evento cierto), tiene una probabilidad de uno.

    La regla mas evidente para las probabilidades es que deben variar en valor de 0 a 1. Un evento imposible tiene una probabilidad cero de ocurrir, y un evento cierto tiene una probabilidad uno de ocurrir. La probabilidad simple se refiere a la probabilidad de ocurrencia de un evento simple.

    Una distribución de probabilidad para una variable aleatoria discreta es un listado mutuamente excluyente de todos los resultadosposibles para esa variable aleatoria, tal que una probabilidad particular de ocurrencia esté asociada con cada resultado.

    Esperanza Matemática

    La media de una distribución de probabilidad es el valor esperado de su variable aleatoria. El valor esperado de una variable aleatoria discreta puede considerarse como su promedio pesadoo sobre todos los resultados posibles, siendo los pesos la probabilidad asociada con cada uno de los resultados.

    Todos los procedimientos paramétricos tienen tres características distintivas: Los procedimientos de prueba paramétricos pueden definirse como aquellos 1)que requieren que el nivel de medición obtenido con los datos recolectados esté en forma de una escala de intervalo o de una escala de cociente; 2)implican la prueba de hipótesis de valores de parámetros especificados 3) y por último requieren un conjunto limitante de suposiciones.

    Procedimientos sin distribución y no paramétricosLos procedimientos de prueba sin distribución pueden definirse ampliamente como 1) aquellos cuya estadística de prueba no depende de la forma de la distribución de la población subyacente de la cual se tomó la muestra de datos o como 2) aquellos para los cuales los datos no tienen fuerza suficiente para garantizar

    operaciones aritméticas significativas.

    Una distribución chi-cuadrado es una distribución sesgada cuya forma depende exclusivamente del número de grados de libertad. Conforma este aumenta, la distribución se vuelve más simétrica.

    Bibliografía

    Anexos

    Para ver los anexos seleccione la opción "Descargar" del menú superior

    Integrantes:

    LAREZ, Liliana

    MARÍN, Mayuris

    ORTIZ, Lilibeth

    PARRA, Isaac

    SANTAELLA, Yscar

    ZORZINI, Pier Angeli

    El Tigre, marzo de 2005

    República Bolivariana de Venezuela

    Ministerio de Educación Superior – Instituto Universitario de Tecnología

    "José Antonio Anzoátegui"

    El Tigre – Edo. Anzoátegui