Descargar

Introducción a la estadística (página 3)

Enviado por Iñaki Andonegui


Partes: 1, 2, 3
edu.red

m1.f1 + m2.f2 +…+ m j.f j [3] suma de los productos de cada dato por la frecuenciacorrespondiente.Evidentemente, ahora habrá menos sumandos; si antes eran 20 datos sueltos a sumar, ahora serán 12, de los cuales 6 serán pequeños productos (15×2, 17×3, 18×3, 19×2, 20×2, 21×2). De esta forma, la expresión adecuada para el cálculo de la media es: x= x1.f1 + x2.f 2 + … + xk .f k [2] n Obsérvese que en el numerador, el su- bíndice del último sumando es k y no n ya que, como acabamos de decir, ahora habrá menos sumandos, porque algunos datos es- tán repetidos (tienen una frecuencia mayor que 1). Es decir, los x1, x2, …, xk, representan ahora cada uno de los valores distintos de los datos.

Esta fórmula es, en realidad, una expre- sión muy relacionada con la [1]; de hecho, si todos los datos de una colección fueran distintos, sus frecuencias valdrían 1, k se- ría igual a n (¿por qué?), y la fórmula [2] se convertiría en la [1].

7. Calcule la media de los datos que aparecen en la tabla anterior, aplicando la fórmula [2]. Ahora, compare este valor con el obtenido en el ejercicio 5. ¿Son iguales?

8. Considere ahora el segundo conjunto de datos de inasistencias a la escuela pre- sentado anteriormente: {12, 11, 12, 13, 14, 13, 15, 16, 14, 15, 18, 16, 19, 15, 21, 20, 24, 23, 22, 23, 23, 23, 22}. Obtenga el prome- dio de inasistencias de la forma que usted desee. 18 Finalmente, nos queda el caso de hallar la media de un conjunto de datos cuando éstos se presentan en una tabla de frecuencias para datos agrupados en clases. Para nuestro primer ejemplo de inasistencias: No podemos utilizar la fórmula [1], ya que desconocemos los datos sueltos; en prin- cipio, tampoco la fórmula [2], por la misma razón. Pero esta última fórmula sí nos brinda un camino para utilizarla en el caso de datos agrupados en clases, ya que en su cálculo intervienen frecuencias.

Pues bien, ahora también conocemos frecuencias, las de cada clase; la pregunta es: ¿por qué valor se va a multiplicar la frecuencia 3, correspondiente a la clase (11, 14) y, así, las demás frecuencias? Hay que seleccionar un valor en cada clase. ¿Qué nos dice la ló- gica, a falta de mayores precisiones? Que seleccionemos el valor que queda exactamente en la mitad del intervalo. ¿Cómo se calcula este valor? Sencillamente, sumando los dos extremos de la clase y dividiendo la suma entre 2. Por ejemplo, el valor intermedio en la clase (11, 14) es: (11 + 14)/2 = 25/2 = 12,5; este valor equidista de 11 y de 14.

Este nuevo valor va a representar a la clase (11, 14) a la hora de calcular la media de todos los datos; y no importa si pertenece o no al conjunto inicial de datos. A este valor intermedio de cada clase se le denomina marca de la clase; vamos a representarlo por m1, m2, … hasta mj, donde j indica el número de clases que tenemos en la distribución de datos agrupados (en nuestro ejemplo, j = 4).

Con todas estas precisiones, la expresión de la media para el caso de datos agrupados en clases es: x = n Para facilitar este cálculo, podemos ayudarnos con una tabla más completa que la anterior:

edu.red

Ahora basta con dividir entre sí los tota- les de las columnas 4a y 3a: = 366 / 20 = 18,3. Este es el promedio de inasisten- cias diarias durante el mes considera- do. Como debe ser un número entero, podemos aproximarlo a 18.

Al comparar este valor con el obtenido en los ejercicios 5. y 6. (hágalo), quizá descubra- mos una pequeña diferencia; y es que cuando los datos están agrupados en clases, se pierde un poco de precisión (aunque se gana en otros aspectos, como ya dijimos anteriormente).

Hay otras formas prácticas de obtener la me- dia o el promedio de un conjunto de datos. Vea- mos estas dos:

1. Utilizar la calculadora. Si ésta posee funcio- nes estadísticas, basta con introducir los datos y pulsar luego la tecla correspondiente a la media. Si la calcu- ladora no posee tales funciones, podemos efectuar la suma progresiva de todos los datos (directamente o en el registro de memoria M+) y dividir el resultado ?nal entre el número de datos.

Este es uno de los casos en que la calculadora puede servirnos como herramienta, aliviándonos del tedioso trabajo de efectuar sumas tan largas. Lo importante es conocer el signi?cado de lo que estamos haciendo y su por qué; garantizado este conocimiento conceptual, bienvenida sea la calculadora (una vez más). 2. Tomar de entrada un valor imagina- rio para la media y luego ajustarlo con los datos. Veamos qué signi?ca esto. Supon- gamos que las edades de un grupo de 20 niños son las siguientes: 8, 7, 8, 6, 9, 7, 8, 6, 7, 7, 8, 8, 6, 10, 9, 10, 7, 8, 7 y 10 años. En este caso, tomemos 8 como valor de entra- da de la media de edades de los 20 niños. Ahora recorremos ese conjunto de datos y anotamos la diferencia de cada uno de ellos con respecto a 8:

La suma de las diferencias positivas es 8; y la de las negativas, 12. Al compensar- se entre ambas, nos queda una diferencia negativa de 4. ¿Diferencia respecto a qué? A la suma total de los 20 datos, si todos hu- bieran tenido el valor de la media, 8. Esta suma total hubiera sido: 20 x 8 = 160. Por consiguiente, la suma total verdadera de los 20 datos es: 160 – 4 = 156. Ahora se divide entre 20 y obtenemos la media: 7,8 años.

También podemos proceder dividiendo esa diferencia negativa ?nal, 4, entre 20, lo que nos da el valor de 0,2; basta restar ahora este valor de la supuesta media inicial 8, con lo que obtendremos la media verdadera: 8 – 0,2 = 7,8 años. 19

edu.red

En principio, este procedimiento puede parecer engorroso, pero la verdad es que puede hacerse mentalmente, recorriendo los datos uno por uno y compensando su- cesivamente las diferencias positivas y ne- gativas sobre la marcha: “7 me da 1 negati- vo; 6 me da 2 negativos, llevo 3 negativos; 9 me da 1 positivo, llevo 2 negativos; 7 me da 1 negativo, llevo 3 negativos; etc.”.

Como puede verse, este procedimiento nos da mayor soltura en el cálculo, más que si utilizáramos los datos reales, que siempre son más “pesados” de manejar. Además, tenemos libertad para elegir el valor inicial para la media que, incluso, puede no coin- cidir con ninguno de los datos.

Por ejemplo, podríamos haber tomado 7 como valor inicial; o incluso, 7,5… En es- tos casos, ¿cómo hubieran sido los cálculos de las diferencias? ¿Cómo hubieran sido las sumas ?nales de las diferencias? ¿Y la media verdadera? Verifíquelo, para salir de dudas… y saque sus propias conclusiones. Y trate de justi?carlas. Digamos, ?nalmen- te, que el procedimiento que acabamos de describir es ideal para estimar (dar un valor aproximado de) la media de una distribu- ción de datos. 3.2. La mediana

La mediana es el valor que, una vez or- denados todos los datos, se encuentra en el “medio”, en la mitad de la distribución. Si el número de datos es impar, coincidirá con uno de los datos; si es par, puede que no ocurra esa coincidencia: hay que pro- mediar los dos valores que se hallen en el 20 centro de la distribu- ción ordenada.

a) Sea el conjunto de datos: {11, 7, 10, 9, 10, 8, 7, 10, 9} Ordenado de menor a mayor: {7, 7, 8, 9, 9, 10, 10, 10, 11} Valor central (en la quin- ta posición): 9 9 es la mediana del conjunto La mediana coincide con uno de los da- tos del conjunto b) Sea el conjunto de datos: {10, 13, 12, 19, 17, 11, 15, 14, 16, 18} Ordenado de mayor a menor: {19, 18, 17, 16, 15, 14, 13, 12, 11, 10} Valores centrales: 15 y 14 Mediana: (15 + 14) / 2 = 14,5 La mediana no coincide con ninguno de los datos del conjunto

c) Sea la distribución de datos:

Los datos centrales son el 10° (15) y el 11° (17) La mediana es: (15 + 17) / 2 = 16 La mediana no coincide con ninguno de los datos de la distribución

Cuando los datos se presentan en una tabla de frecuencias para datos agrupados en clases, es su?ciente con indicar la cla- se mediana, es decir, la clase en la que se encuentra el dato que ocupa el lugar cen- tral de la distribución. Por ejemplo, para el caso:

edu.red

la clase mediana es la que va de 15 a 18 (ahí se encuentran los datos 10o y 11o de la distribución) [puede obtenerse con más precisión un valor para la mediana, pero esto sólo nos llenaría de fórmulas más complejas que pueden verse en cualquier tratado de Estadística].

9. Calcule la mediana de las inasisten- cias para los datos del ejemplo inicial: {15, 19, 18, 18, 17, 17, 11, 13, 19, 18, 20, 21, 23, 26, 24, 21, 20, 17, 15, 12}.

10. Calcule la mediana de los pesos (en Kg) de los niños del ejemplo dado anterior- mente: {37,8; 35,6; 34; 31,9; 40,5; 34,2; 35,6; 38,7; 32,8; 35,4; 41,6; 39,8; 34,5; 37; 42; 36,6; 31,9; 36,5; 35,7; 36; 38; 44,1; 37,2; 36,8; 35; 33,5; 38,9; 37,5; 34; 36,5; 42,5}.

11. ¿Tiene sentido calcular la mediana de los datos cuando la variable es cualitati- va? ¿Por qué?

3.3. La moda

La moda es, sencillamente, el valor que más se repite (el que está más “de moda”); por lo tanto, puede haber una o más modas en la distribución de los datos. Lo que sí es cierto –a diferencia de lo que ocurre con la media y la mediana- esquelamodasiemprecoincidecon un dato de la distribución. Y que es la única medida que puede obtenerse cuando los datos son cualitativos; por ejemplo, si se trata de la distribución por lugares de origen, etc. a) Sea el conjunto de datos: {7, 12, 8, 7, 10, 10, 8, 9, 12, 10} La moda es 10 (se repite 3 veces) La distribución es unimodal

b) Sea el conjunto de datos: {8, 7, 15, 13, 7, 10, 13, 15, 9, 11} La moda corresponde a los valores 7, 13 y 15 (se repiten dos veces cada uno) La distribución es trimodal

Cuando los datos se presentan en una tabla de frecuencias para datos agrupados en clases, sólo se puede indicar la clase modal, es decir, la clase que presenta ma- yor frecuencia. Por ejemplo, para el caso: la clase modal es la que va de 15 a 18 (presenta la mayor frecuencia, 8).

12. Indique la moda de las inasisten- cias para los datos del ejemplo inicial: {15, 19, 18, 18, 17, 17, 11, 13, 19, 18, 20, 21, 23, 26, 24, 21, 20, 17, 15, 12}.

13. Indique la moda de los pesos (en Kg) de los niños del ejemplo dado ante- riormente: {37,8; 35,6; 34; 31,9; 40,5; 34,2; 35,6; 38,7; 32,8; 35,4; 41,6; 39,8; 34,5; 37; 42; 36,6; 31,9; 36,5; 35,7; 36; 38; 44,1; 37,2; 36,8; 35; 33,5; 38,9; 37,5; 34; 36,5; 42,5}.

Ya tenemos los conceptos de media, mediana y moda de una distribución de datos, así como la forma de calcularlos o descubrirlos. Al hallar sus valores en los ejercicios anteriores nos habremos dado cuenta de que, habitualmente, estos valores se ubican entre los valores del centro de la distribución, cuando están ordenados los datos. De ahí viene su cali?cativo de me- didas de tendencia central –o valores cen- 21

edu.red

trales, o medidas centrales- de un conjunto de datos. 3.4. Otros aspectos matemáticos de las medidas de tendencia central

Con el ?n de reforzar algunos aspectos relativos al cálculo de la media y a la de- terminación de la mediana y de la moda, así como para destacar las relaciones entre ellas, vamos a proponer la resolución de al- gunos ejercicios.

¿Pueden coincidir las tres medidas cen- trales en una misma distribución de datos? Si su respuesta es positiva, construya un ejemplo de tal distribución. Si es negativa, explique por qué.

a) Construya ahora, si es posible, una distribución en la que no coincida ningu- na de las tres medidas. b) Ídem, en la que coincidan la media y la mediana, pero no así la moda. c) Ídem, en la que coincidan la moda y la mediana, pero no así la media. d) Ídem, en la que coincidan la media y la moda, pero no así la mediana.

En una clase de 6° grado hay un grupo numeroso de alumnos muy capaces. Si las cali?caciones en Matemática se dan en la escala de 1 a 20, ¿qué media de cali?ca- ciones puede esperarse? ¿Y qué mediana? ¿Y qué moda? ¿Es probable que la moda sea alta?

Si la mediana de un grupo de cali?ca- ciones de Historia es 7 (en la escala de 1 a 10) y la nota aprobatoria es 5, ¿puede 22 cada pregunta con alguno de los siguien- tes códigos: 1. aumenta; 2. disminuye; 3. permanece igual; 4. no se puede asegurar nada].

15. ¿Qué le ocurre a la media de una distribución de datos si el número de da- tos es par y: a) todos los datos aumentan en 2 uni- dades? b) todos los datos disminuyen en 3 unidades? c) la mitad de los datos aumenta en 2 unidades y la otra mitad queda igual? d) la mitad de los datos aumenta en 3 unidades y la otra mitad disminuye en 1?

16. ¿Qué le ocurre a la mediana en los cuatro casos anteriores?

Se ha calculado la media de un grupo de 20 cali?caciones. Pero posteriormen- te, 7 cali?caciones suben en 2 puntos, 5 quedan igual, 3 disminuyen en 2 puntos, 2 disminuyen en 3, 1 disminuye en 4, y 1 disminuye en 5 puntos. ¿Qué le ha ocu- rrido a la nueva media con respecto a su valor anterior?

No conocemos los datos, ni tampoco el valor de la media; tampoco nos piden el valor de la nueva media, sino su variación con respecto a la anterior. Esto signi?ca que tenemos que centrarnos en la varia- ción que han experimentado los datos y, particularmente, el resultado ?nal de las variaciones de todos los datos.

Calculamos los aumentos que han ex- perimentado los datos: 7 x 2 = 14 puntos. decirse que el grupo, en promedio, apro- bó? ¿Por qué?

Veamos ahora el siguiente cuadro de posibles casos de cali?caciones (en la es- cala de 1 a 20):

Suponga que el curso está integrado por 20 alumnos. Para cada uno de los 4 casos construya, si es posible, una distri- bución de datos que se ajuste a los valores dados de las medidas de tendencia cen- tral.

14. ¿Qué le ocurre (o le puede ocurrir) a la media de un conjunto de datos no to- dos iguales, si se elimina de dicho con- junto: a) el dato mayor; b) el dato menor; c) un dato de valor igual a la media; d) un dato de valor igual a la mediana; e) un dato de valor igual a la moda? [Responda

edu.red

Y las disminuciones que han experimen- tado: 3 x 2 + 2 x 3 + 1 x 4 + 1 x 5 = 21 puntos. Variación total ?nal: La suma de los da- tos ha disminuido en 7 puntos. Por consiguiente, la media habrá dismi- nuido en 7/20 = 0,35 puntos. Obsérvese que la media depende di- rectamente de la suma de todos los datos; y que su variación depende de la variación de esta suma.

17. Un conjunto de 300 niños se reparte en lotes de 10 niños. En cada lote, los niños tienen exactamente las siguientes edades: 8 años (3 niños); 9 años (2 niños); 10 años (1 niño); y 11 años (4 niños). ¿Cuál es la media de las edades de los 300 niños? ¿Y la me- diana? ¿Y la moda? 3.5. Las medidas de tendencia central como representativas del conjunto de datos

Los ejercicios anteriores son, sin duda, útiles para desarrollar destrezas en la apli- cación de los conceptos de las medidas de tendencia central, así como de los procesos para su obtención o transformación. Pero podemos formularnos otra pregunta de ma- yor interés: ¿Para qué se obtienen las medi- das de tendencia central?

En principio, hemos dicho que son como representativas de todo el conjunto de datos, aun cuando cada una lo hace a su manera. Lo que nos interesa es tener cri- terio para que, a la vista de cada variable y de la distribución de sus datos, podamos decidir cuál(es) de los tres valores resulta(n) más representativo(s) en cada caso. Para ello, comenzaremos por precisar las poten- cialidades y las limitaciones de cada una de las tres medidas centrales.

La media es la medida de tendencia central de mayor uso, puesto que: • su cálculo es sencillo; • nos da una idea resumida y más consistente del conjunto de datos (el promedio de sus valores); • varía en concordancia con los datos, en el sentido de que si todos los datos aumentan o disminuyen en la misma cantidad, o se multiplican o dividen por la misma cantidad, la me- dia queda afectada por la misma va- riación; • suele decirse que es más estable que la mediana; esto signi?ca que si ex- traemos diversas muestras de la misma población, las medias de estas diversas muestras se parecen más entre sí que las medianas de las mismas muestras.

Pero, por otro lado, la media: • no nos dice cuán variables son los datos, cómo di?eren unos de otros; •corre el riesgo de dejarse in?uir por los valores extremos de la distribución, si hay alguno(s) de ellos muy distante(s) de los demás.

Así, por ejemplo, estos tres conjuntos de datos: {11, 12, 13, 14, 15, 16, 17}, {14, 14, 14, 14, 14, 14, 14} y {2, 2, 2, 14, 26, 26, 26} tie- nen la misma media (verifíquelo), pero son completamente diferentes en la estructura de sus datos; la media no puede darnos una idea de la variabilidad de los datos. En cuanto a la segunda restricción, en el conjunto de datos: {7, 5, 3, 8, 4, 5, 3, 61}, la media es: 96 / 8 = 12, valor que está afec- tado por el último dato (61) ya que la media de los siete primeros datos sería 35 / 7 = 5. Como se ve, el valor 12 no representa real- mente al conjunto de los ocho datos.

Por su parte, la mediana también se ob- tiene fácilmente y no está in?uida por los valores extremos, aunque tampoco nos dice nada de cómo son en realidad los datos de ambas mitades de la distribución, ni acerca de su variación con respecto a la mediana.

Así, por ejemplo, observe que estos dos conjuntos ordenados de datos: {1, 3, 3, 3, 4, 14, 21, 27, 27, 27, 27} y {12, 12, 13, 14, 14, 15, 15, 16, 16} tienen la misma mediana (14), pero di?eren signi?cativamente entre sí.

Finalmente, de la moda no hay mucho más que decir, salvo insistir en su ambigüe- dad: puede darse incluso el caso de que no represente a un valor del centro de la dis- tribución, sino extremo. Por ejemplo, en el siguiente conjunto de datos: {11, 13, 16, 17, 18, 20, 20, 20}, la moda es 20, que repre- senta al mayor de los datos.

Conocer las potencialidades y limitacio- nes de cada uno de los valores centrales es un prerrequisito necesario para poder res- ponder a la pregunta del para qué se ob- tienen las medidas de tendencia central, o de su equivalente, cuál de los valores re- presenta mejor al conjunto de datos. Pero el condicionante principal de la respuesta está en el análisis de los requerimientos 23

edu.red

propios de cada situación, de la variable en juego y de los datos recolectados.

Supongamos que tenemos la distri- bución de las edades de los alumnos del salón de clase y que calculamos los valo- res de sus medidas de tendencia central. ¿Qué signi?ca la media de tales edades? ¿Y la mediana? ¿Y la moda? ¿Alguna de estas medidas es más representativa del conjunto de edades que las demás? ¿O to- das ellas tienen algo peculiar que aportar?

18. Para poder proceder a su posterior dotación, acabamos de obtener la distri- bución de datos referentes a las tallas de zapatos, camisetas, pantalones y faldas de todos los niños y niñas de la escuela. En cada una de estas cuatro distribuciones, ¿qué sentido tiene obtener la media de las tallas? ¿Y la mediana? ¿Y la moda? ¿Algu- na de estas medidas es más representativa que las demás? ¿Podemos prescindir de alguna(s) de estas medidas, tomando en cuenta el objetivo de su recolección?

Invente una situación en la que Ud. va a recabar unos datos y en la que la moda sea el valor más representativo del con- junto. Análogamente para la mediana. Y, ?nalmente, para la media.

Para concluir este punto, permítasenos presentar dos interpretaciones referentes al promedio, una de carácter irónico y la otra, graciosamente distorsionada:

“La Estadística es la ciencia que esta- blece que si mi vecino tiene dos carros y yo no tengo ninguno, entonces los dos 24 tenemos un carro” (Gilbert Chesterton, novelista inglés, 1874-1936) 4. Las medidas de dispersión

Ya hemos visto que las medidas de tendencia central nos aportan información acerca de la distribución de los datos de una variable; información importante y ne- cesaria, pero no su?ciente. Como dijimos y pudimos verlo en algunos ejemplos y ejer- cicios, ninguna de las medidas de tendencia central, ni siquiera las tres juntas, pueden ofrecernos el detalle de los datos, la varia- bilidad presente en ellos.

En efecto, consideremos estos dos con- juntos de datos ordenados, referentes a las cali?caciones escolares de dos grupos de 20 alumnos (en una escala de 1 a 20 puntos):

Conjunto 1: {3, 4, 4, 4, 5, 5, 6, 6, 7, 10, 10, 10, 10, 15, 16, 16, 17, 17, 17, 18} Conjunto 2: {9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 12, 12, 12}

La media, la mediana y la moda de am- bos conjuntos es la misma (10 puntos); y sin embargo, las distribuciones son muy dife- rentes. El segundo grupo de cali?caciones se presenta más homogéneo, las notas es- tán más agrupadas; cosa que no ocurre en el primer conjunto, en el que la dispersión de las notas es muy marcada.

De modo que no basta con que intente- mos caracterizar o resumir una distribución de datos aportando sus medidas de tenden- cia central; necesitamos también decir algo

edu.red

A M B

• • • • • C0 C25 C50 C75 C100 ¿Por qué se escriben los subíndices 25, 50, 75 y 100? Veamos; estos cinco puntos han dividido el segmento en cuatro partes de igual medida. Si desde C0 hasta C100 se halla incluido el 100% de los datos, en cada uno de los cuatro tramos estará agrupado el 25% de los mismos. Así:

• desde C0 hasta C25 está el 25% de los datos, desde el inicio; • desde C0 hasta C50 está el 50% de los datos, desde el inicio; • desde C0 hasta C75 está el 75% de los datos, desde el inicio; • desde C0 hasta C100 está el 100% de los datos.

Los valores de la distribución que ocupan esos puntos particulares reciben el nombre de cuartiles (porque marcan la división de la distribución en cuatro par- tes congruentes). En particular, la mediana coincide con el cuartil C50. En nuestros dos conjuntos, que constan de 20 datos, cada uno de los cuatro tramos entre los cuartiles (se denominan recorri- dos intercuartílicos) tendrá 5 datos. Por consiguiente, los cuartiles C25 y C75 están ubicados entre las posiciones 5a y 6a de la distribución y entre las posiciones 15a y 16a, respectivamente; por lo tanto, hay que obtener el promedio de los valores que se hallan en esas posiciones. con respecto a la variabilidad, a la disper- sión de sus datos. Los indicadores de esta variabilidad reciben el nombre de medidas de dispersión. Veamos algunas de ellas.

Loprimeroquetendemosaobservarson los valores extremos; con ellos calculamos su diferencia que, como ya sabemos, se de- nomina rango. El rango de una distribución de datos es la primera medida de disper- sión y la más básica. En nuestros ejemplos, el rango del primer conjunto es 15 y el del segundo, 3. Nótese que si agregamos este dato al de los valores centrales, ganamos en comprensión acerca de cada uno de los dos conjuntos de datos y podemos diferenciar- los de inmediato.

Pero si bien el segundo conjunto que- da casi fotogra?ado, no ocurre así con el primero, ya que su rango es grande. No sabemos cómo son los datos que ocupan lugares cercanos a los valores extremos, si son parecidos a ellos o no. ¿Cómo se puede resolver esto? Una de las maneras sencillas consiste en abrir unas “ventanitas” para ver los datos de tanto en tanto.

Por ejemplo, podemos imaginar todos los datos ordenados y colocados a la misma distancia unos de otros sobre un segmen- to, que va desde el punto A (el dato me- nor) hasta B (el dato mayor). En el punto medio de AB debe aparecer el punto M (la mediana). Pues bien, si marcamos también los puntos medios de AM y MB, tendremos señalados cinco puntos (cinco ventanitas) de observación sobre el conjunto de datos, desde C0 hasta C100: Así, en el primer conjunto, C25 = (5 + 5)/2 = 5; y C75 = (16 + 16)/2 = 16. Y en el segundo conjunto, C25 = (9 + 9)/2 = 9; y C75 = (10 + 10)/2 = 10. De más está decir que los cuartiles pueden no coincidir con los datos de la distribución (ya lo sabíamos de la mediana). Obsérvese en particular que entre los cuartiles C25 y C75 se halla ubicado el 50% de los datos centrales de cualquier distribución.

Debemos recalcar la utilidad de estos nuevos datos; ahora sabemos que si los dos conjuntos ordenados de datos se frag- mentan en cuatro partes, los valores que vamos a encontrar son: 3, 5, 10, 16 y 18 en el primer conjunto, y 9, 9, 10, 10 y 12 en el segundo, respectivamente. Aunque todavía algo borrosa, tenemos una mejor “fotogra- fía” de cada uno de los dos conjuntos, par- ticularmente del primero…

Otra medida de dispersión de caracte- rísticas similares a la de los cuartiles y que se aplica cuando la distribución consta de muchos datos, es la de los percentiles. En este caso, se divide el segmento, no en cua- tro, sino en cien partes congruentes y se procede de una manera similar a la de los cuartiles.

Así, el percentil 80 (P80) representa el valor que corresponde al 80% de todos los datos ordenados. Para hallarlo en nuestro segundo conjunto, planteamos la siguiente regla de tres: dato en la posición no % correspondiente 20 100 x 80 25

edu.red

de donde: x = 80 x 20 / 100 = 16. Es decir, en nuestro caso, el 80% de los datos está contenido en el lote que va desde el primer dato hasta el dato que ocupa la posición 16. Para hallar su valor hay que obtener el pro- medio de los valores que se hallan en las posiciones 16a y 17a que son 10 y 12; de modo que: P80 = (10 + 12)/2 = 11. 19. Halle los percentiles P20, P40, P60 y P80 de los datos del primer conjunto En este punto ya debe quedar claro que podemos analizar un conjunto de datos re- ferentes a una variable, bien sea a partir de sus tablas de distribución de frecuencias, o de sus grá?cas; también podemos servirnos de sus medidas de tendencia central, pero éstas deben ir acompañadas de sus medi- das de dispersión.

Algunas distribuciones de datos tienen características particulares que son com- partidas por muchas variables de natura- leza muy diversa (?siológica, económica, social, psicológica…).

Entre ellas destaca la distribución normal, así llamada porque los datos se agrupan simétricamente a ambos lados de la media. Algunas de las muchas variables cuyas distribuciones de datos en poblacio- nes numerosas siguen esa forma de distri- bución, son la estatura y el peso de indi- viduos adultos, los efectos producidos por un fármaco en enfermos, o por un abono en las plantas, etc.

Su representación grá?ca tiene forma de campana (campana de Gauss). En la 26 µ + s grá?ca, los valores de la variable x se colocan en el eje horizontal; µ(mu: letra griega equivalente a nuestra m) designa la media; s (sigma: letra griega equivalente a nuestra s) designa la medida de dispersión conocida como desviación típica. En este tipo de distribución, el intervalo de valores de x que va desde µ -s hasta µ + s (algo así como antes desde C25 hasta C75…) encierra el 68% de los datos centra- les de la distribución. f (x) campana de Gauss

µ -s µ -s + s x No vamos a continuar con este estudio; pero sí tomamos nota de que existen otras medidas de dispersión y, sobre todo, tipos de distribuciones, cuyo estudio constituye el objetivo de una Estadística más avanzada.

5. Finalmente, unos ejercicios de interpretación

Vamos a mostrar algunos grá?cos aparecidos en diversas publicaciones periódicas, con el ?n de que nos ejerci- temos en su interpretación.

La grá?ca se re?ere a la relación “salario mínimo / salario promedio” en varios países latinoamericanos; para calcular esa relación se hace la divi- sión correspondiente. Por ejemplo, si el salario mínimo en un país es de 4.500 pesos y el salario poblacional prome- dio es de 7.200 pesos, la relación vale: 4.500/7.200 = 0,625. µ +

edu.red

27 Obsérvese que cuanto más cerca de 1 está ese cociente, sig- ni?ca que el salario promedio y el salario mínimo son casi iguales. Esto puede signi?car dos cosas: que el salario mínimo es muy alto (cosa poco probable en nuestra región), o que el país es muy po- bre, por cuanto la mayoría de los trabajadores del sector formal de la economía sólo recibe el ingreso más bajo de la escala de sueldos. Revise ahora los datos de la tabla, analice la información contenida y exprese sus conclusiones. La siguiente grá?ca corresponde al número total de viviendas terminadas en el período indicado, en uno de nuestros países:

Analice la información contenida en este grá?co y exprese sus conclu- siones al respecto. Esta representación grá?ca se re?ere al problema del hambre en el mundo: Analice la información contenida en esta representación y exprese sus conclusiones al respecto.

edu.red

Veamos este otro cuadro, en el que se presentan las cali?caciones merecidas por nuestros países en cuanto a las políticas pú- blicas desde 1980: Analice la evaluación que se hace de su país y compárela con las de países vecinos al suyo. Exprese sus conclusiones al res- pecto.

28

edu.red

20. Al comenzar el año escolar, usted recolecta los datos de la edad de sus alum- nos y halla los correspondientes valores centrales (media, mediana y moda). Si al comenzar el siguiente curso escolar no se ha modi?cado la nómina de estos alum- nos, ¿qué habrá ocurrido con la media, la mediana y la moda de estos nuevos datos, con respecto a los del curso anterior?

21. Se ha calculado la media de un grupo de cali?caciones. Posteriormente, la mitad de las cali?caciones aumenta en 2 puntos cada una, 4 disminuyen en 1 punto, 8 disminuyen en 3 puntos, y el res- to quedan iguales. Si la media del grupo no varía con respecto a la obtenida antes de estos cambios, ¿de cuántas cali?cacio- nes estamos hablando?

22. Un grupo de 300 niños se distri- buye en lotes de 10 niños del siguiente modo: 8 lotes de niños de 7 años; 2, de 9 años; 7, de 8 años; 5, de 10 años; 5, de 12 años; y 3, de 11 años. ¿Cuál es la media de las edades de los 300 niños? ¿Y la me- diana? ¿Y la moda?

Tome el conjunto de datos correspon- dientes a las edades de los alumnos de su salón y obtenga los valores de las tres me- didas de tendencia central. Analice estos valores y su signi?cado. Compárelos con los de otros salones similares (del mismo grado). Establezca sus conclusiones. Una de las actividades más interesan- tes para aplicar los conocimientos estadís- ticos y para fomentar el espíritu indagador propio y de los alumnos, es la elabora- ción y aplicación de encuestas entre los mismos niños y en su entorno familiar y comunitario. A este respecto, seleccione algunos temas que considere de interés, elabore una encuesta, aplíquela, organice la presentación de los datos recolectados, y analice sus resultados.

Una de las fuentes más destacadas de informaciones en formato estadístico es la prensa periódica (diarios, revistas…). Tome los periódicos más recientes, bus– que algunos informes de esa naturaleza y analícelos.

¿Cuál es el color más usado en las banderas (sin considerar los escudos que algunas incluyen) de los países de Latino- américa? Este dato, ¿representa una me- dia, una mediana o una moda en la distri- bución de los colores de las banderas?

Trate ahora de resolver estos dos pro- blemas, ya presentados en el Cuaderno no 11 (y resueltos en sus páginas 22 y 23), relativo a razones y proporciones:

ñ) Un grupo de hombres y de mujeres declaran su edad por escrito, y se calculan los promedios de esas edades: el del gru- po total, es de 40 años; el de los hombres, 50 años; y el de las mujeres, 35 años. ¿Cuál es la razón del número de mujeres al número de hombres?

o) Una persona desea darse un baño con agua a 35o C. Para conseguir esa tem- peratura, debe mezclar agua caliente con agua fría en una determinada proporción. Hace dos pruebas: en la primera, mezcla 1 parte de agua caliente con 2 de agua fría, y obtiene agua a 20o C; en la segun- da mezcla 3 partes de agua caliente con 2 de agua fría, y obtiene agua a 28o C. Con estos datos, ¿en qué proporción debe mezclar ambos tipos de agua?

29 6. Y ahora, otros ejercicios “para la casa”…

edu.red

30 • Batanero, C. (2002). Los retos de la cultura estadística. Jornadas Interamerica- nas de Enseñanza de la Estadística. Bue- nos Aires. Disponible en: http://www.ugr. es/~batanero/publicaciones.htm • CEPAL – ECLAC (2005). Anuario Esta- dístico de América latina y el Caribe. Dis- ponible en: http://www.eclac.cl/badestat/ anuario_2004/esp.htm • Moore, D. (1998). Incertidumbre. En L. Steen (Ed.), La enseñanza agradable de las matemáticas, pp. 103-148. México: Li- musa. • Shadian, R. (1998), Lectura e interpre- tación de grá?cas de datos. Disponible en: http://msip.lce.org/~quiz/quizzes/jahuma- da/u4s2a.html Referencias bibliográ?cas y electrónicas

edu.red

31 Respuestas de los ejercicios propuestos 1. Cualitativas: a, c, f, h, m; cuantitativas discretas: e, k, l; cuantitativas continuas: b, d, g, i, j 2. No. Porque las variables cualitativas no se miden en escalas de orden 3. a) 7.600 pesos; b) 1.500 pesos 4. No. Porque las variables cualitativas no se miden en escalas de orden 5. 18,2 inasistencias 6. 36,84 kg 7. 18,2 inasistencias; son iguales 8. 18,6 inasistencias 9. 18 inasistencias 10. 36,5 kg 11. No. Porque las variables cualitativas no se miden en escalas de orden 12. Hay dos modas (bimodal): 17 y 18 inasistencias 13. Hay cuatro modas (polimodal): 31,9; 34; 35,6 y 36,5 kg 14. a) 2; b) 1; c) 3; d) 4; e) 4 15. a) aumenta en 1 unidad; b) disminuye en 3 unidades; c) aumenta en 1 unidad; d) aumenta en 1 unidad 16. Lo mismo que a la media en los casos a) y b); en los casos c) y d) no se puede asegurar nada 17. Media: 9,6 años; mediana: 9,5 años; moda: 11 años 18. No tiene sentido hallar la media y la mediana de las tallas; la medida de tendencia central que más puede interesar es la moda 19. P20 = 4,5 puntos; P40 = 6,5 puntos; P60 = 10 puntos; P80 = 16,5 puntos 20. Han aumentado las tres medidas en 1 unidad 21. 28 cali?caciones 22. Media: 9,1 años; mediana: 8,5 años; moda: 7 años

edu.red

4 EQUIPO EDITORIAL Beatriz Borjas y Carlos Guédez Dimensión: Desarrollo del pensamiento matemático Cuaderno N° 17 Introducción a la Estadística Autor: Martín Andonegui Zabala Este libro se ha elaborado con el propósito de apoyar la práctica educativa de los cientos de educadores de Fe y Alegría. Su publicación se realizó en el marco del Programa Internacional de Formación de Educadores Populares desarrollado por la Federación Internacional Fe y Alegría desde el año 2001. Diseño y Diagramación: Moira Olivar Ilustraciones: Corina Álvarez Concepto grá?co: Juan Bravo Corrección de textos: Carlos Guédez y Martín Andonegui Edita y distribuye: Federación Internacional de Fe y Alegría. Esquina de Luneta. Edif. Centro Valores, piso 7 Altagracia, Caracas 1010-A, Venezuela. Teléfonos: (58) (212)5631776 / 5632048 / 5647423. Fax: (58) (212) 5645096 www.feyalegria.org © Federación Internacional Fe y Alegría Depósito legal: lf 60320073102352 Caracas, junio 2007 Publicación realizada con el apoyo de: Centro Magis – Instituto Internacional para la Educación Superior en América Latina y el Caribe (IESALC) – Corporación Andina de Fomento (CAF)

Partes: 1, 2, 3
 Página anterior Volver al principio del trabajoPágina siguiente