donde S es el apoyo supremum de conjunto S Por el teorema Glivenko-Cantelli, si la muestra procede de la distribución F (x), entonces D n converge a 0 casi seguramente. Kolmogorov fortalecido este resultado, por la eficaz prestación de este tipo de convergencia (véase más adelante). El teorema de Donsker proporciona aún mayor resultado.
Distribución de Kolmogorov
La distribución de Kolmogorov es la distribución de la variable aleatoria
Donde B (t) es el puente Browniano. La función de distribución acumulativa de K está dada por
Prueba de Kolmogorov-Smirnov
En virtud de la hipótesis nula de que la muestra proviene de la hipótesis de distribución F (x),
En la distribución, donde B (t) es el puente Browniano.
Si F es continua entonces bajo la hipótesis nula converge a la distribución de Kolmogorov, que no depende de F. Este resultado también puede ser conocido como el teorema de Kolmogorov, ver el teorema de Kolmogorov para desambiguación.
La bondad de ajuste de prueba o la prueba de Kolmogorov-Smirnov se construye mediante el uso de los valores críticos de la distribución de Kolmogorov.
La hipótesis nula es rechazada al nivel a si
K a donde se encuentra desde
La asíntota de potencia de esta prueba es de 1. Si la forma o los parámetros de F (x) se determina a partir de las X i, la desigualdad no podrá ejercer. En este caso, de Monte Carlo o se requieren otros métodos para determinar el nivel de rechazo a.
Dos Muestras de Kolmogorov-Smirnov Test
La prueba de Kolmogorov-Smirnov también puede utilizarse para probar si las dos en una dimensión diferentes distribuciones de probabilidad. En este caso, la estadística de Kolmogorov-Smirnov es
y la hipótesis nula es rechazada al nivel a si
Tabla de Contingencia
En estadística las tablas de contingencia se emplean para registrar y analizar la relación entre dos o más variables, habitualmente de naturaleza cualitativa -nominales u ordinales-.
Supóngase que se dispone de dos variables, la primera el sexo (hombre o mujer) y la segunda que recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de variables en una muestra aleatoria de 100 individuos. Se puede emplear una tabla de contingencia para expresar la relación entre estas dos variables, del siguiente modo:
| Diestro | Zurdo | TOTAL |
Hombre | 43 | 9 | 52 |
Mujer | 44 | 4 | 48 |
TOTAL | 87 | 13 | 100 |
Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias marginales y la cifra situada en la esquina inferior derecha es el gran total.
La tabla nos permite ver de un vistazo que la proporción de hombres diestros es aproximadamente igual a la proporción de mujeres diestras. Sin embargo, ambas proporciones no son idénticas y la significación estadística de la diferencia entre ellas puede ser evaluada con el test Chi Cuadrado de Pearson, supuesto que las cifras de la tabla son una muestra aleatoria de una población. Si la proporción de individuos en cada columna varía entre las diversas filas y viceversa, se dice que existe asociación entre las dos variables. Si no existe asociación se dice que ambas variables son independientes.
El grado de asociación entre dos variables se puede evaluar empleando distintos coeficientes: el más simple es el coeficiente phi que se define por
f = v (?2 / N)
donde ?2 se deriva del test de Pearson, y N es el total de observaciones -el gran total-. F puede oscilar entre 0 (que indica que no existe asociación entre las variables) e infinito. A diferencia de otras medidas de asociación, el coeficiente F de Cramer no está acotado.
TABLA DE CONTINGENCIA
La tabla ji- cuadrada () se utiliza principalmente:
Para probar si una serie de datos observada, concuerda con el modelo (serie esperada) de la información.
Para probar las diferencias entre las proporciones de varios grupos (tabla de contingencia). Para todos los casos,
Ho: No hay diferencia o no hay dependencia entre variables
H1: Hay diferencia o si hay dependencia entre variables.
Pasos para realizar la tabla de contingencias
1) Plantear las hipótesis:
H1: al menos dos proporciones son diferentes.
2) Construir una tabla que contenga los valores observados.
3) Sumar los totales de los renglones y columnas de los valores observados.
4) Debajo de cada valor observado poner el valor esperado utilizando la fórmula:
4) Calcular el valor del estadístico de prueba usando la fórmula:
Donde:
Oij = Valor observado de la celda i,j.
Eij = Valor esperado de la celda i,j
6) Determinar los grados de libertad mediante:
Donde
r = número de renglones
c = número de columnas
7) Calcular el valor crítico en la tabla
8) Criterio de decisión: si el valor crítico < valor del estadístico de prueba rechazamos Ho
Ejemplo: Al final de un semestre, las calificaciones de matemáticas fueron tabuladas en la siguiente tabla de contingencia de para estudiar la relación entre la asistencia a clase y la calificación obtenida.
Ausencias | Aprobado | No aprobado |
0 – 3 | 135 | 110 |
4 – 6 | 36 | 4 |
7 – 45 | 9 | 6 |
Con ¿indican los datos que son distintas las proporciones de estudiantes que pasaron en las tres categorías de ausencias?
H0: p1 = p2 = p3
H1: al menos dos proporciones son diferentes.
Los valores Oij = 135, 110… Corresponden a los valores observados, los valores esperados se colocan en las celdas con paréntesis, para calcular los utilizamos la fórmula:
Calculamos el valor del estadístico de prueba usando la fórmula:
Prueba de Independencia
Su objetivo es determinar si alguna situación es afectada por otra, basándose en datos estadísticos y valores probabilístico obtenidos de la fabulación de datos o de pronósticos por medio de formulas y tablas, para esto se basa en un nivel de significancia en un caso y en el otro a comparar, valiéndonos de tablas de contingencia para obtener frecuencias esperadas y poder aplicarlas, para a si obtener datos comparativos que son determinantes en la decisión de independencia.
Cuando cada individuo de la población a estudio se puede clasificar según dos criterios A y B, admitiendo el primero a posibilidades diferentes y b el segundo, la representación de las frecuencias observadas en forma de una matriz a x b recibe el nombre de Tabla de contingencia. Los datos se disponen de la forma
Siendo n el número de individuos que presentan simultáneamente la i-ésima modalidad del carácter A y la j-ésima del B.
La hipótesis nula a contrastar admite que ambos caracteres, A y B, se presentan de forma independiente en los individuos de la población de la cual se extrae la muestra; siendo la alternativa la dependencia estocástica entre ambos caracteres. La realización de esta prueba requiere el cálculo del estadístico
Donde:
Y
Son las frecuencias absolutas marginales y
El tamaño muestral total.
El estadístico L se distribuye como una con (a – 1) (b – 1) grados de libertad. El contraste se realiza con un nivel de significación del 5%.
Ejemplo de Aplicación
Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes resultados:
|
Sin depresión |
Con depresión |
|
Deportista | 38 | 9 | 47 |
No deportista | 31 | 22 | 53 |
| 69 | 31 | 100 |
L = (38 – 32,43)2/32,43 + (31 – 36,57)2/36,57 + (9 – 14,57)2/14,57 + (22 – 16,43)2/16,43
= 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227
El valor que alcanza el estadístico L es 5,8227. Buscando en la tabla teórica de Chi Cuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite rechazar la hipótesis de independencia de caracteres con un nivel de significación del 5%, admitiendo por tanto que la práctica deportiva disminuye el riesgo de depresión.
Autor:
Silvia Román
Página anterior | Volver al principio del trabajo | Página siguiente |