El trabajo con datos se inició desde tiempos remotos en las sociedades primitivas, cuando en los pueblos fue necesario contar sus habitantes y calcular sus recursos para poder organizar sus comunidades y sus vidas.
La historia confirma que los primeros procesos de recopilación, procesamiento y análisis de información fueron realizados por los gobernantes de las grandes civilizaciones antiguas con la finalidad de que tuvieran conocimientos de los bienes que el Estado poseía y cómo estaban distribuidos en la población. Desde entonces en muchos Estados se ordenaban estudios que les permitieran tener mayor conocimiento de determinadas características de la población, planificar los impuestos y conocer la cantidad de hombres disponibles para la guerra.
Con el transcurso del tiempo ya por el siglo XVII en las sociedades era necesario hacer análisis numéricos relacionados con la salud pública, nacimientos, muertes y actividades propias del comercio, situación que determinó un perfeccionamiento paulatino de los procesos de recopilación y tratamiento de información hasta llegar a la actualidad en que el estudio y análisis de datos no se limita solamente al estudio demográfico y de la Economía.
Su campo de aplicación se extendió a las diferentes esferas de la vida del hombre pues día a día se presentan informaciones de carácter económico, político y social que necesitan ser interpretados para una mejor comprensión de los hechos y fenómenos de la sociedad y del mundo.
En esencia, la Estadística se puede dividir en dos grandes ramas: la Estadística Descriptiva y la Inferencial. La Descriptiva es la que estudia la descripción de una población representada por un conjunto de datos, se encarga principalmente del estudio de las muestras. Cuando se pretende describir (hacer estimaciones, tomar decisiones) acerca de una población partiendo solo de la información de una muestra extraída de ella se hace uso de la Inferencial, o sea se realizan generalizaciones a toda la población de la que fue seleccionada la muestra.
La Estadística Descriptiva analiza, estudia y describe a conjuntos de individuos de una población. Su finalidad es obtener información, analizarla, elaborarla y simplificarla lo necesario para que pueda ser interpretada cómoda y rápidamente y, por tanto, pueda utilizarse eficazmente para el fin que se desee. El trabajo estadístico inicial después de cuantificar las características de interés consiste en describir a través de tablas, gráficos y determinados estadígrafos agrupando los datos buscando descubrir características tendencias en distribuciones de frecuencia empíricas.
Cuando se tiene una lista de datos numéricos a veces se necesita extraer uno que sea representativo de todos, es decir, que ofrezca una cierta idea del valor más típico, ya sea porque es el que más se repite o porque tenga la misma cantidad de datos antes o después de él o porque es el valor alrededor del cual están los demás. Este tipo de datos que se ubican hacia el lugar central de la lista y que indican medidas representativas se llama medidas de tendencia central o de posición.
Los valores que asumen estas medidas están incluidos entre el menor y el mayor de los datos lo que no significa que ocuparán exacta y necesariamente su centro, ni que los valores que tomen tengan que coincidir con alguno de los que han sido recolectados. Entre estas medidas se tienen la moda, la mediana, la media (aritmética, geométrica, armónica) y los percentiles, entre otras.
A veces es conveniente calcularlas todas, a veces dos y en otros casos una medida es la apropiada, es decir, se pueden utilizar según el tipo de fenómeno que se analice y las características de los datos que se procesan.
Desarrollo
Definición 1: La moda
En una muestra de tamaño N, la moda, si existe, es el dato o los datos, que tienen mayor frecuencia absoluta. |
De lo anterior se infiere que en una muestra para que haya moda, tiene que existir por lo menos un dato que se repita una cantidad de veces mayor que la que aparecen los demás. Por tanto, en una muestra la moda puede o no existir, y si existe puede ser única o no. Se puede calcular para cualquier escala de medición de la variable que se estudia.
Para denotar la moda de una variable X, se usará la notación Mo.
En ocasiones una lista de datos puede tener más de una moda, cuando son varios los datos que más se repiten (y se repiten la misma cantidad de veces).
Esta medida de tendencia central es también usualmente empleada para estudiar situaciones de la vida práctica. Es muy útil cuando los datos son cualitativos, pues no depende de cálculos con ellos.
Puede ser usada para cualquier tipo de datos, es fácil de determinar.
Se señala que puede no existir y que no es una función algebraica de los valores individuales de la serie, por lo que puede oscilar mucho de una muestra a otra.
Por ejemplo, la moda se utiliza para indicar el número más frecuente de veces que un árbitro muestra tarjeta amarilla a un jugador en un partido de voleibol para penalizar sus faltas, para indicar la nota más frecuente que un grupo de alumnos obtuvo en la prueba de Matemática, para identificar el horario preferido por los pobladores de una ciudad en una encuesta sobre el tránsito de una línea de ómnibus.
Definición 2: La mediana.
La mediana de una muestra de tamaño N, cuyos datos han sido ordenados ascendente o descendentemente, es el valor (único) que ocupa el propio centro de dichos datos. |
Por tanto, si el elemento de la muestra cuyo valor es el de la mediana se excluye, los datos primarios podrán redistribuirse en dos subgrupos, los cuales quedarán integrados por cantidades iguales de datos.
Solo tiene validez práctica cuando se le aplica a variables que estén medidas en escala métrica u ordinal.
Para calcular la mediana de una muestra de tamaño N, se deberán seguir los siguientes pasos:
Ordenar los datos de modo ascendente o descendente.
Calcular la posición que ocupa la mediana: si N es impar, la mediana ocupa la posición (N +1) / 2 de los datos; en cambio sí N es par, entonces la mediana se encuentra entre los datos que ocupan las posiciones N/ 2 y (N /2) +1.
Dentro de la muestra ordenada localizar el dato o los datos que ocupan la posición o posiciones calculadas en el paso 3.
En el momento de realizar la interpretación de la mediana se deberá tener mucho cuidado, ya que en ocasiones esta coincide con algunos de los datos primarios y en otras no. Puede señalarse que:
La mediana siempre existe y puede ser determinada para cualquier grupo de datos, sean ordinales o numéricos (no para datos nominales).
Siempre es única.
Puede ser hallada con un mínimo de cálculos siendo apropiada para muestras pequeñas.
No es fácilmente afectada por valores extremos.
En la práctica se puede utilizar por ejemplo para determinar el valor central de las notas de Matemática de los 30 alumnos de un grupo o el valor central de la cantidad de pasajeros transportados por un ómnibus en los recorridos que hizo en un día.
Ejemplo 1:
Conocidos los datos 3; 2; 5; 8; 7; 13; 11 calcule la mediana.
Después de ordenarlos queda: 2 3 5 7 8 11 13. El número de datos es impar: n = 7, = 4, por tanto la mediana es el dato que ocupa el cuarto lugar; en éste caso el número 7.
Definición 3: Media aritmética
La media aritmética es el valor alrededor del cual se encuentran los datos de una lista. |
Se calcula sumando todos los datos y dividiendo el resultado por el número de datos. Solo tiene validez práctica cuando se le aplica a variables que estén medidas en escala métrica.
Se denota por el símbolo y la fórmula para calcularla es:
Esta expresión Xi representa a cada dato o valor de la variable, el signo S significa la suma de todos los datos y n es la cantidad de datos.
A esta media aritmética se le llamara simple para diferenciarla de la media aritmética ponderada que se analizará posteriormente. También, se le suele decir promedio, aunque este último nombre se puede prestar a confusión. Constituye el punto de " equilibrio o centro de gravedad" de los datos.
Es muy utilizada al analizar situaciones de la vida como por ejemplo al calcular el promedio de notas de un alumno y el promedio del gasto de electricidad o de agua de una familia.
Puede señalarse que:
Siempre existe.
Siempre es única y fácil de calcular.
– Toma en cuenta cada dato de manera individual. Es una función algebraica de los valores individuales de la serie de datos.
– Puede o no coincidir con uno o más de los datos y no depende de su cantidad. Para su cálculo no requiere que los datos sean ordenados, ni tabulados y puede o no ser igual a la moda.
– Se puede utilizar cuando la muestra no es extremadamente pequeña pero no en el caso de datos nominales (que son atributos o valores dados por propiedades) ni ordinales.
– Si en una muestra todos los datos son iguales (constantes), entonces la media aritmética de esa muestra es esa misma constante.
La media aritmética está influida por valores extremos, lo que constituye una limitante en su utilización, o sea, está "afectada" por cada dato y principalmente, por aquellos que se alejan mucho de los demás. Quizás sea esta la gran deficiencia o limitación de esta medida lo que hace que, en ocasiones, la media no sea una "buena representación" de los datos.
Ejemplo 2:
Si se calcula la media considerando las calificaciones sobre 100 puntos de 10 alumnos 42 52 100 48 60 58 56 42 39 100
60 esto significaría que la media de los alumnos está aprobado, sin embargo sólo hay 3 aprobados (es decir, tres calificaciones de 60 o más puntos).
Ejemplo 3:
Dada las notas (sobre 10 puntos) de 30 alumnos
6,9 9,7 3,2 6,8 8,8 5,3 4,5 2,8 8,7 9,8
6,8 7,6 9,2 8,3 8,3 6,3 6,9 7,6 6,8 9,3
7,7 7,6 9,8 5,7 1,3 7,2 9,7 4,9 6,9 1,7
a) Calcular la moda: Mo = 6,8 ; 6,9 ; 7,6
b) Calcular la mediana: Después de ordenadas las notas medias (pues 30 es par) son la 15 (6,9) y la 16
(7,2), luego la mediana es:
En este caso la mediana no es un dato pues hay un número par de datos.
Definición 4: Media geométrica
La media geométrica de una muestra de tamaño N es la raíz n – ésima del producto de los N datos de esa muestra. Se denota esta medida por G. En símbolos: |
Cuando los datos vienen dados por razones es más recomendable utilizar la geométrica en lugar de la aritmética. La media geométrica se utiliza en los casos en que los datos de la variable que se investiga, presenta una "razón de crecimiento". Tiene, entre otros campos, gran uso dentro de la Biología.
Si la cantidad de observaciones es muy grande para simplificar los cálculos se hace uso de las propiedades de los logaritmos decimales y se obtiene una nueva expresión para esta fórmula, que en realidad es la que se utiliza:
En definitiva, para calcular la media geométrica de una muestra de tamaño N, se procede del siguiente modo.
Calcular el logaritmo decimal de cada dato de la muestra.
Calcular la media aritmética de esos nuevos datos.
Calcular el antilogaritmo de esa media.
Definición 5: Media armónica
La media armónica de una muestra de tamaño N es el cociente que se establece entre el tamaño de la muestra y la suma de los recíprocos de los datos de esa muestra. |
Denotando por MA esta medida y su fórmula para el cálculo es:
En resumen, para calcular la media armónica de una muestra de tamaño N, se procede del siguiente modo:
Calcular el recíproco de cada dato de la muestra.
Calcular la suma de esos nuevos datos.
Dividir el valor de N por la suma anterior.
La media geométrica de un conjunto de valores positivos es menor o igual a su aritmética pero mayor o igual que la armónica.
Ejemplo 4:
La tabla de frecuencias que se presenta a continuación corresponde a los resultados del control que realizó la directora de una escuela– durante 19 días – a los alumnos que llegaron tarde a clases. Calcule la media, la moda y la mediana.
Para calcular la media, como los datos están recogidos en la tabla donde están reflejadas las frecuencias absolutas se puede reducir el número de sumandos haciendo uso del cálculo de los productos que se obtienen al multiplicar la cantidad de alumnos que llegaron tarde por la frecuencia. La suma de estos productos se divide por el número total de datos y de esta forma se obtiene la media aritmética.
Si se observa la tabla de frecuencias se puede notar directamente de que el valor que más se repite en este conjunto de datos es el 5. De manera que la cantidad de alumnos que con más frecuencia llegaron tarde al matutino fue de 5, que es la moda de estos datos En este caso para determinar la mediana se deberá ordenar en forma creciente o decreciente el conjunto de datos: 0; 0; 1 ;1 ;2 ;2 ;2 ;3 ;3 ;4 ;4; 5 ;5; 5; 5; 5; 5; 6; 7 . Como el número de datos es impar bastaría tomar su valor central que en este caso es 4. Luego la mediana del número de alumnos que llegaron tarde al matutino es 4.
De las medidas de tendencia central estudiadas la media es la más utilizada, aunque en ciertos casos la utilización de la mediana o de la moda es preferible.
La media en muy sensible a valores extremos, o sea, cuando se altera drásticamente el valor de uno de los datos, la media varía considerablemente.
La mediana es preferible a la media cuando se está interesado en conocer el punto medio de la distribución de los datos ya que es el valor que la divide en dos partes iguales.
La moda revela su utilidad, tanto en el estudio de datos cualitativos, como cuantitativos, mientras que la media y la mediana son aplicables a datos cuantitativos.
La importancia de las medidas estudiadas está en dependencia del tipo de datos, de su distribución y del objetivo que se tiene en la realización del estudio. A pesar de ser considerada la media como la medida más importante en la mayoría de los estudios de fenómenos o hechos, el conocimiento de las tres proporciona una mejor descripción de estos.
1. Se lanza un dado 19 veces con las siguientes lecturas: 5, 1, 3, 3, 6, 2, 6, 4, 5, 2, 1, 2, 5, 3, 2, 6, 1, 4, 4
a) ¿Cuál es el promedio de las lecturas obtenidas?
b) ¿Cuál es la tirada que más se repite?
c) ¿Cuál es el mayor valor intermedio de todas las lecturas, ordenadas estas de menor a mayor?
2. En un escuela se seleccionaron al azar 20 alumnos para hacer una investigación sobre la edad de los alumnos que con más frecuencia participas en competencias deportivas. Para ello se seleccionaron como muestra alumnos de diferentes grados, recogiéndose sus edades de la siguiente forma:
11 15 14 12 11 14 14 13 15 16
12 12 14 14 15 15 13 14 15 13
a) Ordene los datos de menor a mayor.
b) Determine la cantidad de alumnos que tienen 15 años
c) ¿Qué porciento de alumnos tienen 11 años?
d) ¿Cuál es la edad más frecuente de los alumnos seleccionados?
e) Diga la cantidad de alumnos que tienen edad superior a 13 años.
f) Realice una investigación similar en la escuela donde realiza la práctica laboral.
12. La media de las edades de Ángel y José es 24 años. Si José tiene 18 años, entonces, que edad tienen Ángel.
13. La media de las edades de Carlos y Roberto es 15 años. La media de las edades de Carlos y Ana es 26 años. La media de las edades de Ana y Roberto es 18 años. ¿Qué edad tienen Carlos?
14. Se sabe que la media de tres números es 2,5 . 104, siendo dos de los números 1, 2 . 104 y 5,6 . 10 4, entonces ¿Cuál es el tercer número?
15.
Autor:
Lic. Wilmer Valle Castañeda.