Medidas de Dispersión

Enviado por Mario Orlando Suárez Ibujes

Las medias de tendencia central o posición nos indican donde se sitúa un dato dentro de una distribución de datos. Las medidas de dispersión, variabilidad o variación nos indican si esos datos están próximos entre sí o sí están dispersos, es decir, nos indican cuán esparcidos se encuentran los datos. Estas medidas de dispersión nos permiten apreciar la distancia que existe entre los datos a un cierto valor central e identificar la concentración de los mismos en un cierto sector de la distribución, es decir, permiten estimar cuán dispersas están dos o más distribuciones de datos.

Estas medidas permiten evaluar la confiabilidad del valor del dato central de un conjunto de datos, siendo la media aritmética el dato central más utilizado. Cuando existe una dispersión pequeña se dice que los datos están dispersos o acumulados cercanamente respecto a un valor central, en este caso el dato central es un valor muy representativo. En el caso que la dispersión sea grande el valor central no es muy confiable. Cuando una distribución de datos tiene poca dispersión toma el nombre de distribución homogénea y si su dispersión es alta se llama heterogénea.

Desviación media o desviación promedio

La desviación media o desviación promedio es la media aritmética de los valores absolutos de las desviaciones respecto a la media aritmética.

1.1) PROPIEDADES

Guarda las mismas dimensiones que las observaciones. La suma de valores absolutos es relativamente sencilla de calcular, pero esta simplicidad tiene un inconveniente: Desde el punto de vista geométrico, la distancia que induce la desviación media en el espacio de observaciones no es la natural (no permite definir ángulos entre dos conjuntos de observaciones). Esto hace que sea muy engorroso trabajar con ella a la hora de hacer inferencia a la población.

Cuando mayor sea el valor de la desviación media, mayor es la dispersión de los datos. Sin embargo, no proporciona una relación matemática precisa entre su magnitud y la posición de un dato dentro de una distribución.

La desviación media al tomar los valores absolutos mide una observación sin mostrar si la misma está por encima o por debajo de la media aritmética.

1.2) MÉTODOS DE CÁLCULO

1.2.1) Para Datos No Agrupados

Se emplea la ecuación:

edu.red

Ejemplo ilustrativo:

Calcular la desviación media de la distribución: 3, 8, 8, 8, 9, 9, 9, 18

Solución:

Se calcula la media aritmética.

edu.red

Se calcula la desviación media.

edu.red

Empleando Excel se calcula de la siguiente manera:

edu.red

1.2.2) Para Datos Agrupados en Tablas de Frecuencia

Se emplea la ecuación:

edu.red

Ejemplo ilustrativo: Calcular la desviación media en base a la siguiente tabla sobre las calificaciones de un estudiante en 12 asignaturas evaluadas sobre 10.

Calificación	Cantidad de asignaturas
6	4
7	2
8	3
9	2
10	1
Total	12

Solución:

Se calcula la media aritmética.

edu.red

1.2.3) Para Datos Agrupados en Intervalos

Se emplea la ecuación:

edu.red

Donde xm es la marca de clase.

Ejemplo ilustrativo: Calcular la desviación media de un curso de 40 estudiantes en la asignatura de Estadística en base a la siguiente tabla:

Calificación	Cantidad de estudiantes
2-4	6
4-6	8
6-8	16
8-10	10
Total	40

Solución:

Para calcular la media aritmética se llena la siguiente tabla:

Intervalo	f	xm	f·xm
2-4	6	3	18
4-6	8	5	40
6-8	16	7	112
8-10	10	9	90
Total	40		260

Calculando la media aritmética se obtiene:

edu.red

Varianza y desviación estándar

La varianza es la media aritmética de los cuadrados de las desviaciones respecto a la media aritmética, es decir, es el promedio de las desviaciones de la media elevadas al cuadrado. La desviación estándar o desviación típica es la raíz de la varianza.

La varianza y la desviación estándar proporcionan una medida sobre el punto hasta el cual se dispersan las observaciones alrededor de su media aritmética.

2.1) PROPIEDADES

– La varianza y desviación estándar (o cualquier otra medida de dispersión) indican el grado en que están dispersos los datos en una distribución. A mayor medida, mayor dispersión.

– La varianza es un número muy grande con respecto a las observaciones, por lo que con frecuencia se vuelve difícil para trabajar.

– Debido a que las desviaciones son elevadas al cuadrado y la varianza siempre se expresa en términos de los datos originales elevados al cuadrado, se obtiene unidades de medida de los datos que no tiene sentido o interpretación lógica. Por ejemplo, si se calcula la varianza de una distribución de datos medidos en metros, segundos, dólares, etc, se obtendrá una varianza mediada en metros cuadrados, segundos cuadrados, dólares cuadrados, respectivamente, unidades de medida que no tienen significado lógico respecto a los datos originales.

– Para solucionar las complicaciones que se tiene con la varianza, se halla la raíz cuadrada de la misma, es decir, se calcula la desviación estándar, la cual es un número pequeño expresado en unidades de los datos originales y que tiene un significado lógico respeto a los mismos.

A pesar de lo anterior, es difícil describir exactamente qué es lo que mide la desviación estándar. Sin embargo, hay un resultado útil, que lleva el nombre del matemático ruso Pafnuty Lvovich Chebyshev, y se aplica a todos los conjuntos de datos. Este teorema de Chebyshev establece que para todo conjunto de datos, por lo menos 1- 1/k2 de las observaciones están dentro de k desviaciones estándar de la media, en donde k es cualquier número mayor que 1. Este teorema se expresa de la siguiente manera:

edu.red

Así por ejemplo, si se forma una distribución de datos con k =3 desviaciones estándar por debajo de la media hasta 3 desviaciones estándar por encima de la media, entonces por lo menos

edu.red

Interpretación: El 88,89% de todas las observaciones estarán dentro ± 3 desviaciones de la media.

2.2) MÉTODOS DE CÁLCULO

2.2.1) Para Datos No Agrupados

La varianza para una población se calcula con:

edu.red

Notas:

1) Para el cálculo de la varianza de una muestra se divide por n-1 en lugar de N, debido a que se tiene n-1 grados de libertad en la muestra. Otra razón por la que se divide por n-1 es debido a que una muestra generalmente está un poco menos dispersa que la población de la cual se tomó. Al dividir para n-1 en lugar de N se cumple con la tendencia y sentido lógico de que la varianza y desviación estándar de la muestra deben tener un valor más pequeño que la varianza y desviación estándar de la población.

2) En la realidad, salvo indicación expresa, no se calcula la varianza y la desviación estándar de la población, ya que para ahorrar tiempo, esfuerzo, dinero, etc. es mejor trabajar con datos que representan a la muestra.

Ejemplo ilustrativo N° 1

Considere que los siguientes datos corresponden al sueldo de una población: $350, $400, $500, $700 y $1000

1) Calcular la desviación estándar.

2) ¿Cuál es el intervalo que está dentro de k = 2 desviaciones estándar de la media?. ¿Qué porcentaje de las observaciones se encuentran dentro de ese intervalo?

Solución:

1) Para la calcular la desviación estándar se sigue los siguientes pasos:

a) Se calcula la media aritmética.

edu.red

b) Se aplica la respectiva fórmula para calcular la varianza

edu.red

c) Se calcula la desviación estándar.

edu.red

Empleando Excel se calcula de la siguiente manera:

edu.red

2) Cálculo del intervalo de k = 2 desviaciones estándar de la media.

Se transportan 2 desviaciones estándar (2 x $ 237,4868) = $ 474,97 por encima y por debajo de la media edu.red = $ 590

Por lo tanto se tiene un intervalo desde $ 590 – $474,97 = $ 115,03 hasta $ 590 + $474,97 = $ 1064,97

Aplicando el Teorema de Chebyshev

edu.red

Interpretación: Se puede afirmar de que por lo menos el 75% los sueldos están entre $ 115,03 y $ 1064,97

Ejemplo ilustrativo N° 2: Dos empresas, A y B, venden sobres de café instantáneo de 350 gramos. Se seleccionaron al azar en los mercados cinco sobres de cada una de las compañías y se pesaron cuidadosamente sus contenidos. Los resultados fueron los siguientes.

A	B
350,14	350,09
350,18	350,12
349,98	350,20
349,99	349,88
350,12	349,95

1) ¿Qué empresa proporciona más café en sus sobres?

2) ¿Qué empresa llena sus sobres de manera más consistente?

Solución:

a) Se calcula las medias aritméticas.

edu.red

Interpretación: Como la media aritmética de la empresa A es mayor que la de la empresa B, por lo tanto la empresa A proporciona más café en sus sobres.

b) Se calcula las desviaciones estándar.

edu.red

Interpretación: Como la desviación estándar de la empresa A es menor a la desviación estándar de la empresa B, por lo tanto la empresa A es más consistente al llenar los sobres de café.

Empleando Excel se calcula de la siguiente manera:

edu.red

2.2.2) Para Datos Agrupados en Tablas de Frecuencia

La varianza para una población se calcula con:

edu.red

Ejemplo ilustrativo: Calcular la desviación estándar de los siguientes datos correspondientes a una muestra.

Calificaciones	f
4	3
5	6
6	4
7	13
8	7
10	6
Total	39

Solución:

a) Se llena la siguiente tabla:

Calificaciones	f	fx
4	3	12
5	6	30
6	4	24
7	13	91
8	7	56
10	6	60
Total	39	273

b) Se calcula la media aritmética.

edu.red

2.2.3) Para Datos Agrupados en Intervalos

La varianza para una población se calcula con:

edu.red

Ejemplo ilustrativo: Calcular la desviación estándar de los siguientes datos correspondientes a una muestra.

Intervalo	f
60-65	5
65-70	20
70-75	40
80-85	27
85-90	8
Total	100

Solución:

a) Se llena la siguiente tabla:

Intervalo	f	xm	f·xm
60-65	5	62,5	312,5
65-70	20	67,5	1350
70-75	40	72,5	2900
80-85	27	82,5	2227,5
85-90	8	87,5	700
Total	100		7490

b) Se calcula la media aritmética.

edu.red

d) Se calcula la desviación estándar.

edu.red

Referencias bibliográficas

SUÁREZ, Mario, (2011), Interaprendizaje de Estadística Básica,

TAPIA , Fausto Ibarra, Ecuador.

Autor:

Mario Orlando Suárez Ibujes