Descargar

Técnicas de análisis estadístico no paramétrico (página 2)

Enviado por Silvia Rom�n


Partes: 1, 2

edu.red

donde S es el apoyo supremum de conjunto S Por el teorema Glivenko-Cantelli, si la muestra procede de la distribución F (x), entonces D n converge a 0 casi seguramente. Kolmogorov fortalecido este resultado, por la eficaz prestación de este tipo de convergencia (véase más adelante). El teorema de Donsker proporciona aún mayor resultado.

Distribución de Kolmogorov

La distribución de Kolmogorov es la distribución de la variable aleatoria

edu.red

Donde B (t) es el puente Browniano. La función de distribución acumulativa de K está dada por

edu.red

Prueba de Kolmogorov-Smirnov

En virtud de la hipótesis nula de que la muestra proviene de la hipótesis de distribución F (x),

edu.red

En la distribución, donde B (t) es el puente Browniano.

Si F es continua entonces bajo la hipótesis nula edu.redconverge a la distribución de Kolmogorov, que no depende de F. Este resultado también puede ser conocido como el teorema de Kolmogorov, ver el teorema de Kolmogorov para desambiguación.

La bondad de ajuste de prueba o la prueba de Kolmogorov-Smirnov se construye mediante el uso de los valores críticos de la distribución de Kolmogorov.

La hipótesis nula es rechazada al nivel a si

edu.red

K a donde se encuentra desde

edu.red

 

La asíntota de potencia de esta prueba es de 1. Si la forma o los parámetros de F (x) se determina a partir de las X i, la desigualdad no podrá ejercer. En este caso, de Monte Carlo o se requieren otros métodos para determinar el nivel de rechazo a.

Dos Muestras de Kolmogorov-Smirnov Test

La prueba de Kolmogorov-Smirnov también puede utilizarse para probar si las dos en una dimensión diferentes distribuciones de probabilidad. En este caso, la estadística de Kolmogorov-Smirnov es

edu.red

y la hipótesis nula es rechazada al nivel a si

edu.red

Tabla de Contingencia

En estadística las tablas de contingencia se emplean para registrar y analizar la relación entre dos o más variables, habitualmente de naturaleza cualitativa -nominales u ordinales-.

Supóngase que se dispone de dos variables, la primera el sexo (hombre o mujer) y la segunda que recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de variables en una muestra aleatoria de 100 individuos. Se puede emplear una tabla de contingencia para expresar la relación entre estas dos variables, del siguiente modo:

 

Diestro

Zurdo

TOTAL

Hombre

43

9

52

Mujer

44

4

48

TOTAL

87

13

100

Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias marginales y la cifra situada en la esquina inferior derecha es el gran total.

La tabla nos permite ver de un vistazo que la proporción de hombres diestros es aproximadamente igual a la proporción de mujeres diestras. Sin embargo, ambas proporciones no son idénticas y la significación estadística de la diferencia entre ellas puede ser evaluada con el test Chi Cuadrado de Pearson, supuesto que las cifras de la tabla son una muestra aleatoria de una población. Si la proporción de individuos en cada columna varía entre las diversas filas y viceversa, se dice que existe asociación entre las dos variables. Si no existe asociación se dice que ambas variables son independientes.

El grado de asociación entre dos variables se puede evaluar empleando distintos coeficientes: el más simple es el coeficiente phi que se define por

f = v (?2 / N)

donde ?2 se deriva del test de Pearson, y N es el total de observaciones -el gran total-. F puede oscilar entre 0 (que indica que no existe asociación entre las variables) e infinito. A diferencia de otras medidas de asociación, el coeficiente F de Cramer no está acotado.

TABLA DE CONTINGENCIA edu.red

La tabla ji- cuadrada () se utiliza principalmente:

Para probar las diferencias entre las proporciones de varios grupos (tabla de contingencia). Para todos los casos,

Ho: No hay diferencia o no hay dependencia entre variables

H1: Hay diferencia o si hay dependencia entre variables.

Pasos para realizar la tabla de contingencias edu.red

  • 1) Plantear las hipótesis:

edu.red

H1: al menos dos proporciones son diferentes.

  • 2) Construir una tabla que contenga los valores observados.

  • 3) Sumar los totales de los renglones y columnas de los valores observados.

  • 4) Debajo de cada valor observado poner el valor esperado utilizando la fórmula:

edu.red

4) Calcular el valor del estadístico de prueba edu.redusando la fórmula:

edu.red

Donde:

Oij = Valor observado de la celda i,j.

Eij = Valor esperado de la celda i,j

6) Determinar los grados de libertad mediante:

edu.red

Donde

r = número de renglones

c = número de columnas

7) Calcular el valor crítico en la tabla edu.red

8) Criterio de decisión: si el valor crítico < valor del estadístico de prueba rechazamos Ho

Ejemplo: Al final de un semestre, las calificaciones de matemáticas fueron tabuladas en la siguiente tabla de contingencia de edu.redpara estudiar la relación entre la asistencia a clase y la calificación obtenida.

Ausencias

Aprobado

No aprobado

0 – 3

135

110

4 – 6

36

4

7 – 45

9

6

Con edu.red¿indican los datos que son distintas las proporciones de estudiantes que pasaron en las tres categorías de ausencias?

H0: p1 = p2 = p3

H1: al menos dos proporciones son diferentes.

edu.red

Los valores Oij = 135, 110… Corresponden a los valores observados, los valores esperados se colocan en las celdas con paréntesis, para calcular los utilizamos la fórmula:

edu.red

edu.red

edu.red

Calculamos el valor del estadístico de prueba edu.red usando la fórmula:

Prueba de Independencia

Su objetivo es determinar si alguna situación es afectada por otra, basándose en datos estadísticos y valores probabilístico obtenidos de la fabulación de datos o de pronósticos por medio de formulas y tablas, para esto se basa en un nivel de significancia en un caso y en el otro a comparar, valiéndonos de tablas de contingencia para obtener frecuencias esperadas y poder aplicarlas, para a si obtener datos comparativos que son determinantes en la decisión de independencia.

Cuando cada individuo de la población a estudio se puede clasificar según dos criterios A y B, admitiendo el primero a posibilidades diferentes y b el segundo, la representación de las frecuencias observadas en forma de una matriz a x b recibe el nombre de Tabla de contingencia. Los datos se disponen de la forma

edu.red

Siendo n el número de individuos que presentan simultáneamente la i-ésima modalidad del carácter A y la j-ésima del B.

La hipótesis nula a contrastar admite que ambos caracteres, A y B, se presentan de forma independiente en los individuos de la población de la cual se extrae la muestra; siendo la alternativa la dependencia estocástica entre ambos caracteres. La realización de esta prueba requiere el cálculo del estadístico

Donde:

edu.red

Y

edu.red

Son las frecuencias absolutas marginales y

edu.red

El tamaño muestral total.

El estadístico L se distribuye como una edu.redcon (a – 1) (b – 1) grados de libertad. El contraste se realiza con un nivel de significación del 5%.

Ejemplo de Aplicación

Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes resultados:

 

 

 

 

Sin depresión

 

 

 

Con depresión

 

Deportista

38

9

47

No deportista

31

22

53

 

69

31

100

L = (38 – 32,43)2/32,43 + (31 – 36,57)2/36,57 + (9 – 14,57)2/14,57 + (22 – 16,43)2/16,43

= 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227

El valor que alcanza el estadístico L es 5,8227. Buscando en la tabla teórica de Chi Cuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite rechazar la hipótesis de independencia de caracteres con un nivel de significación del 5%, admitiendo por tanto que la práctica deportiva disminuye el riesgo de depresión.

 

 

 

 

 

Autor:

Silvia Román

Partes: 1, 2
 Página anterior Volver al principio del trabajoPágina siguiente