Medidas de centralización
1. Introducción 2. Características de las medidas de posición central 3. Medidas de centralización: media aritmética, mediana y moda. Propiedades. Relación entre media, mediana y moda 4. Cuantiles: cuartiles, deciles y percentiles
INTRODUCCIÓN
En este tema y los dos siguientes vamos a obtener unos números que cuantifiquen las propiedades fundamentales de la distribución de frecuencias. Estos números podemos clasificarlos en: ? Medidas de localización (posición). Son coeficientes de tipo promedio que tratan de representar una determinada distribución, pueden ser de dos tipos: 1.-CENTRALES: -Medias: ? ? ? Aritmética Geométrica Armónica -Medianas -Moda 2.-NO CENTRALES: -Cuantiles: ? ? ?
? Cuartiles Deciles Centiles o percentiles
Medidas de dispersión. Son complementarias de las de posición en el sentido que señalan la dispersión en conjunto de todos los datos de la distribución respecto de la medida o medidas de localización adoptadas. – Medidas de dispersión absoluta: Recorrido – Medidas de dispersión relativa: Recorrido intercuartílico, desviación media, varianza, desviación típica. -Coeficiente de variación PEARSON. –Diagrama de caja. ? Medidas de forma Estudian la asimetría- simetría y deformación (apuntamiento, aplastamiento) respecto de una distribución modelo denominada distribución NORMAL
Coeficiente de asimetría y coeficiente de Curtosis. ? Medidas de concentración Estudian la concentración de una distribución frente a la uniformidad. INDICE DE GINI, CURVA DE LORENZ. 2.1 CARACTERÍSTICAS DE LAS MEDIDAS DE POSICIÓN CENTRAL. Las medidas de posición son promedios y pueden ser de tendencia central o no, las más importantes son las que hemos indicado en la introducción, esto es: media, mediana, moda y los cuantiles. 2.2 MEDIDAS DE CENTRALIZACIÓN: MEDIA ARITMÉTICA, MEDIANA Y MODA. PROPIEDADES. RELACIÓN ENTRE MEDIA, MEDIANA Y MODA. MEDIA ARITMÉTICA: Es la suma de todos los valores de la variable dividida entre el número total de elementos.
?xi X ??xifi
X ? n
? i?1 n x1 ?x2 ?x3 ?….xn?1 ?xn n Si el valor xi de la variable X se repite ni veces, aparece en la expresión de la media aritmética de la forma: X ??xini n , que será la expresión que consideraremos definitiva de la media aritmética. Como ni N fi ? otra posible expresión será n
i?1 Ejemplo: Si tenemos la siguiente distribución, se pide hallar la media aritmética, de los siguientes datos expresados en kg. 601 10 ? X ? ?xini n ? 60,1 kg 470 10 ? 47 ? X ? ?xini n MEDIA ARITMÉTICA PONDERADA: En ocasiones no todos los valores de la variable tienen el mismo peso. Esta importancia que asignamos a cada variable, es independiente de la frecuencia absoluta que tenga. Será como un aumento del valor de esa variable, en tantas veces como consideremos su peso.
Es la media aritmética que se utiliza cuando a cada valor de la variable (xi) se le otorga una ponderación o peso distinto de la frecuencia o repetición. Para poder calcularla se tendrá que tener en cuenta las ponderaciones de cada uno de los valores que tenga la variable
Se la suele representar como: i i
i i i
NOTA: A la media aritmética se la denomina también CENTRO DE GRAVEDAD de la distribución.
Si la variable esta agrupada en intervalos (variable continua), se asignan las frecuencias a las marcas de clase y se procede como si la variable fuera discreta. En el futuro consideraremos indistintamente ? ci = xi
Ejemplo:
Añadimos las columnas según las necesidades
?xini ?(x ?(x ?(x n ? Xn ) n ???x n ??Xn ?n ???x n ? X?n ?n ???x n ? Xn?n ? ? . n? ?yini ??xi ? k?ni ??xini ? kni? ?xini ??kni ?xini ?kni ?xini kn ?xini
Ejemplo: Un estudiante realiza 3 exámenes de complejidad creciente, obteniendo los siguientes resultados: 5, 8 y 7. El primer examen lo hizo en ½ hora, el segundo en 1 hora y el tercero en hora y media, por lo que se les atribuye una ponderación de 1, 2 y 3 respectivamente. Se pide calcular la nota media. 5? 8? 7 3 ? Si calculamos la media aritmética tendremos que :
X ? n ?6,67. Ahora bien, si calculamos la media ponderada, obtendremos:
6 6
Propiedades de la media aritmética PROPIEDAD 1: La suma de las desviaciones de los valores de la variable con respecto a la media aritmética es 0. Veamos que resulta al operar la siguiente expresión: i n
i?1 ? X). Tendremos que ? 0 ? 0 ? ? ? 1 1 1 1 i i i i i i i i i i i i i i i n
i?1 i 1 ni ? 1 ? ni xini n ?xini ? ? ni ni ? X) PROPIEDAD 2: La media aritmética de los cuadrados de las desviaciones de los valores de la variable con respecto a una constante cualquiera se hace mínima cuando dicha constante coincide con la media aritmética (Teorema de KÖRING). 2 2 D?k?? ? ? prop1? 0 i ?0 n n n Para k ?x (media aritmética) el valor de las desviaciones será mínima.
PROPIEDAD 3: Si a todos los valores de la variable se le suma una misma cantidad, la media aritmética queda aumentada en dicha cantidad:
Supongamos que tenemos una variable x de la que conocemos su media. Supongamos ahora que tenemos otra variable, que se calcula a partir de la anterior de la siguiente forma: yi ? xi ?k . Si ahora queremos calcular la media de esta segunda variable: n n n n n n ? n
y ? i?1 ? ? ? ? ?
? ? ? ? k n n n como ?xini n ? X si sustituimos tendremos Y ? X ?k que es lo que pretendíamos demostrar.
, entonces x ? 2y ?38436? 2 ?38436? 0,222?38436? 38436 ,222 ?xiNi
PROPIEDAD 4: Si todos los valores de la variable se multiplican por una misma constante la media aritmética queda multiplicada por dicha constante . La demostración se realizaría de manera análoga a la anterior.
NOTA: De las dos propiedades anteriores se deduce que la resta y la división se realizarían de igual manera para la propiedad 3 y 4 respectivamente.
Corolario: Si una variable es transformación lineal de otra variable (suma de un número y multiplicación por otro), la media aritmética de la 1ª variable sigue la misma transformación lineal con respecto a la media aritmética de la 2ª variable, siendo yi = a xi + b , donde a y b son números reales: ? a x ?b ? y ? b?ni n ?yini ? ?(axi ?b)ni ? ?(axini ?bni ) ? a?xini n n n n Podemos utilizar esta metodología para calcular la media de la siguiente distribución. xi ?38436 2 tomando como nueva variable el valor más centrado, Si efectuamos un cambio de variable yi ? tendremos:: 1 9 3 27 ? ? y ? yini n x ?38436 2 Como y ? 1 9 PROPIEADAD 5: – Si en un conjunto de valores se pueden obtener 2 ó más subconjuntos disjuntos, la media aritmética del conjunto se relaciona con la media aritmética de cada uno de los subconjuntos disjuntos de la siguiente forma: n X ? N
I?1 Siendo ? xi la media de cada subconjunto y Ni el núm. de elementos de cada subconjunto.
Veamos la demostración de la propiedad: Sea la distribución x1, x2, x3, x4, xn, xn+1, xn+2 .xk, observando que habrían como dos subconjuntos de n y k-n elementos cada uno. Si consideramos la media aritmética de la distribución: X ? ?xini y calculamos los sumatorios para los dos subconjuntos, la n expresión de la media quedaría:
?x jn j ? ?xrnr ?x jn j ? ?xrnr X ? X1 1 ? X2 X N ? X2N2 ? (lgx1 n1 ?lgx2n 22 ?lgx3 n3 ?…. ?lgxk nk ) (n1lgx1 ? n2 lgx2 ? n3 lgx3 ?…… ? nk lgxk)?? i
n n X ? k
? r?n?1 n n k n
j?1 r?n?1 j?1 Si multiplicamos numerador y denominador de cada una de las fracciones por una misma cantidad el resultado no varía, por tanto, multiplicaremos la primera por N1 que es su número de elementos del primer subconjunto y la segunda por N2 que es el correspondiente, la expresión quedará: ? n ? ? n ? ? j?1 ? ? j?1 ? n k n kn
como N1n N2n n n N1 N2 media del primer y segundo subconjunto, la expresión la podemos expresar de la siguiente manera: n N n N2 n ? 1 1 que es lo que queríamos demostrar ya que si las frecuencias se multiplican n n n k o dividen por un mismo número, la media no varía
IMPORTANTE: Hay que tener en cuenta que la media aritmética es muy sensible a los valores extremos, es decir, a valores numéricos muy diferentes, (tanto por lo grandes, o pequeños que sean), al resto de la muestra. Esto puede resultar un problema. Hay formas de resolverlo, que veremos más adelante.
Media geométrica y armónica.
a) Media geométrica: Responde a la siguiente expresión G ? n x11x22x32……xnk y se la puede define, como la raíz n-ésima del producto de todos los valores de la variable. También la podemos representar como: 1 n1 n2 n3 nk n
NOTA: En muchas ocasiones, los valores de la distribución nos impiden poder efectuar los cálculos al exceder la capacidad de la calculadora. Utilizaremos las propiedades de los logaritmos: ? ? lg (a.b) = lg a + lg b lg an = n lg a n n n k n n n k lg(x11x22x33…….xnk ) ? 1 n 1 lgG ?lg(x11x22x33…….xnk )n ? 1 n sabiendo que lo podemos expresar en notación compacta: n lgxi n 1 n ?lgG, por lo que podemos decir que n lgxi n El logaritmo de la media geométrica es la media aritmética de los logaritmos de los valores de la variable. El problema se presenta cuando algún valor es 0 ó negativo y exponente de la raíz par ya que no exista raíz par de un número negativo.
Suele utilizarse cuando los valores de la variable siguen una progresión geométrica. También para promediar porcentajes, tasas, nº índices, etc. siempre que nos vengan dados en porcentajes.
Ejemplo: Hallar la media geométrica de la siguiente distribución:
? x ? 3 ?…. ? x
?ni lgxi n lgG ? por lo tanto será conveniente ampliar la tabla con lo que nos quedará 45,221 22 ? 2,056 ? lgG ? ?ni lgxi n G = anti lg. 2,0555 = 113,632 NOTA: En la calculadora el antilogaritmo se halla apretando la tecla SHIFT log x
b) Media armónica. La representaremos como H: Es la inversa de la media aritmética de las inversas de los valores de la variable, responde a la siguiente expresión: ? ? n x3 n2 x21 n1 x1 n H ? n ni i Se utiliza para promediar velocidades, tiempos, rendimiento, etc. (cuando influyen los valores pequeños). Su problema: cuando algún valor de la variable es 0 o próximo a cero no se puede calcular.
Ejemplo: calcular la media armónica de la siguiente distribución: Para poder hallarla, es necesario que calculemos el inverso de x y el inverso de la frecuencia por lo que ampliaremos la tabla con 2 columnas adicionales : , 22 0,195 ?11282 ? n ni i H ? 2520 22 ?114,545 ? X ? ?xini n Entre la media aritmética la media geométrica y media armónica se da siempre la siguiente relación: H ?G ? X
? Ni , para obtener la mediana realizaremos el siguiente cálculo: Me ? i
MEDIANA: Me La mediana o valor mediano será el valor de la variable que separa en dos grupos los valores de las variables, ordenadas de menor a mayor. Por tanto es una cantidad que nos indica orden dentro de la ordenación. El lugar que ocupa se determina dividiendo el nº de valores entre 2: n 2 Cuando hay un número impar de valores de la variable, la mediana será justo el valor de orden central, aquel cuya frecuencia absoluta acumulada coincida con n 2 n 2 . Es decir: Ni?1 ? ?Ni ?Me ? xi . Por tanto la mediana coincide con un valor de la variable. El problema está cuando haya un número par de valores de la variable. Si al calcular n 2 resulta que es un valor menor que una frecuencia absoluta acumulada, el valor de la mediana será aquel valor de la variable cuya frecuencia absoluta cumpla la misma condición anterior: n 2 Ni?1 ? ?Ni ?Me ? xi . Por el contrario si coincide que N 2 x ?xi?1 2 Ejemplo: Sea la distribución lugar que ocupa 35 2 ?17,5 ? n 2 n 2 como se produce que Ni?1 ? ?Ni ?16?17,7? 26?Me ? xi ,por lo tanto Me = 7 El otro caso lo podemos ver en la siguiente distribución: Lugar que ocupa = 32/2 = 16 ==> ? 6 5?7 2 ? x1 ?xi?1 2 Me ? Notar que en este caso se podría haber producido que hubiera una frecuencia absoluta acumulada superior a 16. En este caso se calcularía como en el ejemplo anterior. En distribuciones agrupadas, hay que determinar el intervalo mediano ?Li?1,Li?, la forma de hacerlo será calcular el valor de la mitad de n, y observar que intervalo tiene una frecuencia absoluta acumulada que n 2 cumpla Ni?1 ? ?Ni . Después de saberlo haremos el siguiente cálculo:
ai ?Ni?1 ni N Me ? Li?1 ? 2 Siendo: [ Li-1, Li) el intervalo que contiene a la frecuencia acumulada N/2 ai = amplitud de dicho intervalo.
Ejemplo: 671/2 = 335.5 ; Me estará en el intervalo [30 – 35 ). Por tanto realizamos el cálculo: *5? 32,138 33,5?250 200 ai ? 30? ?Ni?1 ni n Me ? Li?1 ? 2
MODA: Mo
Será el valor de la variable que más veces se repite, es decir, el valor que tenga mayor frecuencia absoluta. Pueden existir distribuciones con más de una moda: bimodales, trimodales, etc. En las distribuciones sin agrupar, la obtención de la moda es inmediata. Ejemplo: Moda {2, 4}, en este caso tenemos una distribución bimodal.
En los supuestos que la distribución venga dada en intervalos, es decir, sea agrupada, se pueden producir dos casos: que tengan la misma amplitud, o que esta sea distinta.
Si tienen la misma amplitud, en primer lugar tendremos que encontrar el intervalo modal, será aquel que tendrá mayor frecuencia absoluta [Li?1,Li). Posteriormente realizaremos el siguiente cálculo: ai ni?1 ni?1 ?ni?1 Mo ? Li?1 ? Siendo: Li-1 = extremo inferior del intervalo modal amplitud de dicho intervalo = densidades de frecuencia de los intervalos anterior y posterior respectivamente al que contiene la moda.
Cuando los intervalos sean de distinta amplitud, el intervalo modal será el de mayor densidad de n ai ai di?1 di?1 ?di?1 de la amplitud. Para realizar el cálculo, tendremos en cuenta la siguiente expresión: Mo ? Li?1 ?
Nota: 1.- Cuando hay una única moda, la mediana suele estar comprendida entre x y Mo. x = Me=Mo 2.- Cuando la distribución es simétrica (con 1 moda) se cumple que:
Ejemplo: Hallar la moda de la siguiente distribución Calculamos el intervalo modal [25 50). Operamos: 25? 45,5 3,6 0,8?3,6 ai ? 25? di?1 di?1 ?di?1 Mo ? Li?1 ?
x ?xi?1 2.3
CUANTILES: CUARTILES, DECILES Y PERCENTILES Son medidas de localización similares a las anteriores. Se las denomina CUANTILES (Q). Su función es informar del valor de la variable que ocupará la posición (en tanto por cien) que nos interese respecto de todo el conjunto de variables.
Podemos decir que los Cuantiles son unas medidas de posición que dividen a la distribución en un cierto número de partes de manera que en cada una de ellas hay el mismo de valores de la variable.
Las más importantes son: C1,C2,C3, CUARTILES, dividen a la distribución en cuatro partes iguales (tres divisiones). correspondientes a 25%, 50%,75%. DECILES, dividen a la distribución en 10 partes iguales (9 divisiones).D1,…,D9, correspondientes a 10%,…,90% PERCENTILES, cuando dividen a la distribución en 100 partes (99 divisiones).P1,…,P99, correspondientes a 1%,…,99%.
Existe un valor en cual coinciden los cuartiles, los deciles y percentiles es cuando son iguales a la Mediana y así veremos 50 100 5 10 2 4 ? ? ?%?N ?Ni?1 ni Distinguiremos entre distribuciones agrupadas, y las que no lo están: En las distribuciones sin agrupar, primero hallaremos el lugar que ocupa: Entonces tendremos que :
Ni=1 < (%) . n < Ni ? Q = xi xi ?xi?1 en el supuesto que (%).n = Ni ? Q ? 2 Primero encontraremos el intervalo donde estará el cuantil: lugar Ni=1 < (%) n< Ni? Intervalo [Li-1, Li) , en este caso: Q ?Li?1 ? ai Ejemplo: DISTRIBUCIONES NO AGRUPADAS: En la siguiente distribución
Ni 3 10 15 18 20
Calcular la mediana (Me); el primer y tercer cuartil (C1,C3); el 4º decil (D4) y el 90 percentil (P90)
Mediana (Me) Lugar que ocupa la mediana ? lugar 20/2 = 10 Como es igual a un valor de la frecuencia absoluta acumulada, realizaremos es cálculo: 2 ?12,5 10?15 2 ? Me ? i , es decir 3 < 5 < 10 Primer cuartil (C1) Lugar que ocupa en la distribución ( ¼). 20 = 20/4 = 5 Como Ni-1 < (25%).n < Ni esto implicara que C1 = xi =10 Tercer cuartil (C3)
acumulada, por tanto realizaremos el cálculo: C3 ? i frecuencia absoluta acumulada, por tanto realizaremos el cálculo: P90 ? i
Lugar que ocupa en la distribución (3/4).20 = 60/4 = 15, que coincide con un valor de la frecuencia absoluta ?17,5 15?20 2 ? x ?xi?1 2 3 < 8 < 10 por Cuarto decil (D4) Lugar que ocupa en la distribución (4/10) . 20 = 80/10 = 8. Como Ni-1 < (%).n < Ni ya que tanto D4 =10.
Nonagésimo percentil (P90) Lugar que ocupa en la distribución (90/100). 20 = 1800/100 = 18. que coincide con un valor de la ? 22,5 20?25 2 ? x ?xi?1 2 Ejemplo: DISTRIBUCIONES AGRUPADAS: Hallar el primer cuartil, el cuarto decil y el 90 percentil de la siguiente distribución:
Primer cuartil (C4) Lugar ocupa el intervalo del primer cuartil: (1/4). 500 = 500/4 = 125. Por tanto C4 estará situado en el 125?90 140
Cuarto decil (D4) Lugar que ocupa: (4/10) . 500 = 200 . Por tanto D4 estará situado en el intervalo [100 200). Aplicando la 200?90 140
Nonagésimo percentil (P 90) Lugar que ocupa: (90/100) . 500 = 450, por tanto P90 estará situado en el intervalo [300 800). Aplicando 450?380 70 120 120