Introducción a la estadística (página 2)

Partes: 1, 2, 3

ncias diarias de los alumnos de nuestra escuela; o el número de personas que habitan en la 6

edu.red

k) Número de personas del grupo fa- miliar l) Número de calzado m) Mascota o animal preferido

Conviene diferenciar a las variables cualitativas y cuantitativas por otro rasgo. Las primeras mani?estan su variabilidad en el abanico de categorías en que se cla- si?can, categorías que no mantienen una relación de orden entre sí.

Por ejemplo, no es posible establecer cuál de los colores está por encima de los otros, o cómo se ordenan las diversas na- cionalidades u ocupaciones… (claro que hay quien lo hace, pero por razones exter- nas a las propias variables: gustos, razones subjetivas, ansias de poder y dominio…).

En cambio, entre los valores que pue- den tomar las variables cuantitativas sí existe un cierto orden. Por ejemplo, es po- sible ordenar los valores de las estaturas, de las edades de las personas, de los nú- meros de páginas de los libros, etc.

Por esta razón se dice que las variables cualitativas se miden en una escala nomi- nal (sus valores se reducen a los “nom- bres” de las categorías en que se clasi?ca el atributo) y que las variables cuantitati- vas se miden en una escala ordinal (tiene sentido ordenar sus valores).

Dentro de toda esta diversidad, hay al- gunos rasgos comunes a destacar. En primer lugar, las variables y los resultados de las mediciones se re?eren a poblaciones, que son los conjuntos de personas, de objetos, de características ambientales…, que portan alguna información relativa a la variable que se estudia: el género, la edad, la ubicación geográ?ca, o las opiniones de las perso- nas; la tasa de mortalidad de los niños; los precios de los objetos y de los servicios; la temperatura o grado de humedad de nues- tro ambiente; las cali?caciones de nuestros alumnos… Cada uno de los elementos de una población (sean personas, objetos, etc.) recibe el nombre de individuo.

Los resultados de la medición de una variable en el seno de una población reci- ben el nombre de datos. Los datos –sean categorías o clases de un atributo, o núme- ros- re?ejan la variabilidad de la caracte- rística estudiada en esa población. En este sentido, los datos son mediciones en un contexto especí?co, condición indispensa- ble para que puedan transmitir información (Moore, 1998).

Por ejemplo, el número 3,2 no nos aporta información alguna; pero si decimos que una niña pesó 3,2 Kg al nacer, sí po- demos establecer algunas interpretaciones acerca de su estado saludable en el mo- mento de su nacimiento. Y si disponemos de una colección de datos similares como, por ejemplo, los pesos de los niños nacidos en la población en estudio durante un lapso de tiempo determinado, tendremos nuevos elementos informativos para interpretar el peso de nuestra recién nacida; por ejemplo, si está dentro de lo normal, o no.

Todos sabemos el nombre de estas lis- tas o colecciones de datos referidos a una variable de una determinada población: son las estadísticas propias de esa variable poblacional. Esta expresión se deriva del término Estadística, utilizado para designar a la ciencia que se ocupa del tratamiento de la información; es decir, de estudiar los fenómenos de cualquier tipo por medio de datos observados y cuanti?cados, que son recogidos, organizados, representados y analizados con el ?n de precisar su signi- ?cado e inferir, en lo posible, predicciones de cara al futuro. Para todas estas tareas contamos, pues, con métodos estadísticos.

El nombre de Estadística se atribuye al economista alemán Gottfried Achenwall (siglo XVIII), quien lo derivó del término “estadistas” aplicado a los empleados del Estadodedicadosaelaborarloscensospo- blacionales, (censos de los que se tienen registros históricos mucho más antiguos). Los campos de aplicación iniciales fueron los demográ?cos y los económicos.

Pero volvamos al hilo conductor de nuestra re?exión. Tenemos que aprender a convivir con la información, a seleccionar- la, a quedarnos con la que nos puede ser útil. Porque esa lluvia de información debe tener un objetivo para nosotros; en otras palabras, debemos estar en condiciones de responder a la pregunta: ¿Para qué nos sir- ve la información?

Probablemente ya tenemos alguna res- puesta a esa cuestión. Primero, para man- tenernos en conexión con nuestro mundo y con quienes lo comparten con nosotros, familiares, colegas, alumnos, personas de nuestra comunidad, compatriotas… Nece- sitamos compartir un saber, un conocer; es 7

edu.red

Pero también –y sobre todo- necesita- mos la información para tomar decisiones. Y esto, en todos los niveles de nuestra vida: familiar, profesional, social, política, cultu- ral… Si no disponemos de la información adecuada, podemos errar en nuestras de- cisiones. preciso estar enterados, no descolgarnos de su desarrollo físico y a su salud, características familiares, condiciones socioeconómicas, los demás ni del mundo. anotaciones acerca del rendimiento escolar…). Si nos limitásemos al simple registro y posterior archivo de esos datos, la información recolectada no tendría ninguna relevancia ni trascendencia. Pero si, por el contrario, or- ganizamos y analizamos las diversas relaciones entre ellos, podremos establecer conclu- siones interesantes en relación con los grupos estudiados, así como compararlos entre sí. E, incluso, podremos llegar a ver que las regularidades que presentan algunas de esas características nos permitirán inferir conclusiones acerca de los rasgos que tendrán las poblaciones de estudiantes futuros. De modo que manejar oportunamen- Por otro lado, resulta muy importante la tarea de lograr que nuestros alumnos com- te la información se ha convertido en una prendan y sepan utilizar las herramientas estadísticas, con el ?n de facilitarles la interpreta- competencia imprescindible en nuestra ción de la información que les llega, la organización y presentación de la que ellos pueden vida. Para alcanzar esa competencia, para producir, y la correcta toma de decisiones. saber procesar la información, es muy con- veniente que ésta venga expresada de una Estamos, pues, a las puertas de un campo bien interesante, bien útil, bien sencillo… y manera organizada. Así se nos facilitará la asequible desde los primeros niveles de escolaridad. No pensemos, de entrada, en cosas tarea de interpretarla como es debido y to- complicadas. El requisito básico para adentrarnos en la Estadística es tener hábitos de mar las decisiones del caso. organización. Con esta predisposición no nos debe costar ir adquiriendo las técnicas co- rrespondientes que, por lo demás, son muy lógicas y asequibles. Pero no siempre la información circula del entorno hacia nosotros. También ca- mina en sentido inverso, también nosotros somos productores de información. Y en 2. ¿Qué hacemos con los datos? este caso, sigue siendo válida la necesidad de expresarla de manera organizada, para que sus receptores puedan interpretarla sin 2.1. En primer lugar, reconocer su necesidad di?cultad y sentirse apoyados en su toma de decisiones. Quizá la proposición de –antes que nada- reconocer la necesidad de los datos puede llamar la atención de más de un(a) lector(a). Porque estamos acostumbrados a la idea de De las consideraciones anteriores po- que las tareas estadísticas signi?can exclusivamente la recolección de datos, la elabora- demos derivar las razones del interés que ción de tablas, de grá?cos, el cálculo de la media, la determinación de la moda…; es decir, la Estadística puede tener para nosotros, no en Estadística hay que “hacer cosas” con los datos y para ello existen una serie de fórmulas sólo como ciudadanos sino, particularmen- y procedimientos a utilizar correctamente. te, como docentes. A este respecto, recor- demos todos los registros que anualmente Sin embargo, si queremos hacer “nuestra” la Estadística, tenemos que empezar por efectuamos en la escuela, referidos a di- indagar nuestra actitud ante las situaciones de la vida real; tenemos que preguntarnos versas características de nuestros alumnos si deseamos comprenderlas para manejarlas adecuadamente y tomar las decisiones más (grado, género, edad, aspectos referidos a pertinentes frente a ellas. 8

edu.red

Sobre esta base se apoya la Estadística; y, en particular, sobre la hipótesis de que muchas situaciones de la vida real sólo pue- den ser comprendidas a partir del análisis de un conjunto de datos de carácter cuan- titativo que hayan sido recogidos en forma adecuada.

Así, como decíamos en el ejemplo ante- rior, el peso de 3,2 kg de una niña al nacer cobra todo su sentido cuando “disponemos de una colección de datos similares como, por ejemplo, los pesos de los niños nacidos en la población en estudio durante un lapso de tiempo determinado”. Lo mismo pode- mos decir de la consideración del peso y la estatura, o de las cali?caciones escolares, de uno solo de nuestros alumnos.

Ahora bien, tenemos que reconocer que la observación de un caso aislado, o recu- rrir a la experiencia de una sola persona, o intentar encontrar evidencias determinantes en un suceso anecdótico, puede confundir- nos y llevarnos a una toma de decisiones equivocada (Batanero, 2002).

Por ello, resulta muy importante percibir y valorar la variación que afecta a esas ca- racterísticas (variables) que se mani?estan en una forma cuantitativa en nuestro entor- no. Los datos nos hablan de la presencia de la variabilidad en muchas de las situaciones que conforman nuestra vida. De entrada, percibimos que no todo es uniforme, hecho con una sola medida (afortunadamente).

Ante este panorama, la Estadística nos ofrece algunos métodos para intentar com- prender y analizar, en lo posible, esta varia- ción, aunque sin negar ni agotar su riqueza y su originalidad. Dentro de ciertos límites, los métodos estadísticos nos permiten bus– car explicaciones y causas de la variación y, sobre todo, aprender del contexto.

Reúnase con sus compañeros(as) y tra- te de hacer una lista de aquellas variables de su entorno cuyos datos pueden resultar de interés para su desempeño profesio- nal. 2.2. En segundo lugar, recolectarlos

¿Dónde recolectamos los datos? Bueno, hay muchos datos que se producen regu- larmente, con una periodicidad al menos anual. En cada uno de nuestros países, todos los ministerios y despachos guber- namentales elaboran sus Anuarios, con los datos y tablas referentes a sus actividades y a las variables poblacionales que son de su incumbencia. En todos ellos existen tam- bién instituciones nacionales de Estadística, encargadas de recopilar los datos estadísti- cos de interés para estudiosos y curiosos… En el campo educativo, desde cada escuela y desde cada instancia municipal, regional y nacional, se producen cantidades de da- tos propios de este ámbito educativo.

Incluso, son muchos los bancos de datos que son publicados por organismos interna- cionales, en los cuales se recogen y compa- ran los que se producen en cada uno de los países involucrados. En lo que a Latinoamé- rica se re?ere, tenemos a la mano los ban- cos de datos presentados por la UNESCO, la OEA, la CEPAL-ECLAC (2005), etc., entre otros muchos. La lectura de estos cuadros estadísticos nos permite, no sólo asimilar la información que contienen sino, además, observar la forma en que se presentan.

Pero, como hemos dicho antes, noso- tros mismos podemos señalar alguna va- riable que nos interesa en nuestro desem- peño profesional y, seguramente, también podemos recolectar datos referentes a esa variable. Tomemos, por ejemplo, el núme- ro de inasistencias diarias de alumnos a nuestra escuela durante un mes (20 días). Estos datos pueden proporcionarnos cierta información acerca de la vida escolar, sobre todo si se comparan con los de otros meses del año escolar; es decir, tienen interés para nosotros.

Supongamos que estos son los datos, día a día, empezando por el primer lunes: {15, 19, 18, 18, 17, 17, 11, 13, 19, 18, 20, 21, 23, 26, 24, 21, 20, 17, 15, 12}. 2.3. En tercer lugar, organizar su presentación

¿Qué hacemos con esos 20 datos (N = 20)? Podemos hacer muchas cosas; por ejemplo:

1. Ordenarlos de menor a mayor: {11, 12, 13, 15, 15, 17, 17, 17, 18, 18, 18, 19, 19, 20, 20, 21, 21, 23, 24, 25}. O, también, de mayor a menor. Eso nos permite observar y anotar los valores mayor y menor: 26 y 11, respectivamente. O el valor (los dos va- lores, en este caso) que se encuentra(n) en el medio de los datos. O el (los) que más veces se repite(n)…

edu.red

ción de ciertos valores más representativos de la misma.

La segunda forma de representar los da- tos (distribución de frecuencias) es la que mejor y con más detalle nos permite resu- mir todos los datos y volverlos a “leer” orga- nizadamente. La tercera forma (distribución de frecuencias para datos agrupados) es, a su vez, un resumen de la anterior, y es muy útil cuando los datos son muy numerosos y están muy dispersos o presentan frecuen- cias muy bajas. Se pierde algo del detalle que ofrece la forma de representación ante- rior, pero nos permite una lectura más sin- tetizada de la distribución de los datos.

Suponga que en el siguiente mes, que tiene 23 días lectivos, se recolectan estos datos de inasistencia diaria de alumnos a la escuela: {12, 11, 12, 13, 14, 13, 15, 16, 14, 15, 18, 16, 19, 15, 21, 20, 24, 23, 22, 23, 23, 23, 22}.

a) Determine los valores extremos de la distribución b) Calcule el rango de la distribución c) Ordene los datos de mayor a me- nor d) Elabore la tabla de distribución de frecuencias correspondiente e) Forme intervalos o clases de am- plitud 4 (de 10 a 13, etc.) y elabore la correspondiente tabla de distribución de frecuencias

La representación de los datos, particu- larmente las referentes a la distribución de frecuencias y a la distribución de frecuen- cias de datos agrupados, puede hacerse Quizás al (a la) lector(a) se le puedan ocurrir otras formas de representar los datos anteriores, o algunas particularidades de los mismos; pero vamos a quedarnos con las tres señaladas. Veamos algunas caracterís- ticas de algunas de ellas.

La primera nos permite determinar el rango o recorrido de la distribución, es decir, determinar la amplitud del intervalo en que se mueven los valores. La forma de calcularlo es restar los valores extremos; en nuestro ejemplo, el rango de los datos es: 26 – 11 = 15.

Ese resultado no coincide con el nú- mero de valores diferentes que podrían aparecer entre los valores extremos de la colección de datos. Para obtener este últi- mo número volvemos a restar estos valores extremos… y sumamos 1 unidad; en nues- tro ejemplo es: 26 – 11 + 1 = 16. Si alguien duda por qué se debe sumar 1 unidad, pón- gase a contar cuántos valores seguidos hay desde 11 hasta 26, ambos incluidos.

Esa primera forma de representación or- denada de los datos va a tener utilidad más adelante, a la hora de analizar la distribu- ción de los mismos, mediante la determina- 2. Presentarlos en una tabla en la que se señale cada número de inasistencias (dato) con el número de veces (frecuencia) con el que aparece (distribución de frecuencias):

3. Como en la tabla anterior aparecen muchos datos diferentes (12), podemos pensar en agruparlos un poco y presen- tarlos en otra tabla en la que se señalen las inasistencias agrupadas por intervalos o clases, con el número de veces en que se presentan (distribución de frecuencias para datos agrupados): 10

edu.red

también de forma grá?ca y no sólo mediante las tablas del tipo que acabamos de presen- tar (forma tabular).

Tomemos el ejemplo de la distribución de frecuencias antes presentada. Para llevarla a una grá?ca, vamos a trazar dos segmentos perpendiculares (ejes), con sus marcas o medidas correspondientes; en el horizontal vamos a colocar, ordenados, los valores de la variable (número de inasistencias diarias) y en el segmento vertical, las frecuencias de esos valores.

Marcados así esos dos segmentos, vamos a levantar, en cada punto del eje horizontal, un segmento perpendicular cuya medida sea exactamente la de la frecuencia correspon- diente a ese valor de la variable. Haciendo esta tarea para cada uno de los valores de la variable, llegamos a esta grá?ca: 26 22 23 18 19 14 15 11 También puede construirse una grá?ca de barras correspondiente a la tabla que re- coge la distribución de los datos agrupados en clases. Para nuestro ejemplo: 8 7 6 5 4 3 2 1 Tome ahora los datos y las tablas co- rrespondientes a las inasistencias del se- gundo mes, y elabore:

a) la grá?ca de barras Esta representación recibe el nombre de grá?ca de barras. Obsérvese que para con- b) el polígono de frecuencias servar la secuencia de los valores de la variable, desde 11 hasta 26, se han marcado los c) la grá?ca de barras para los datos valores 14, 16, 22 y 25, cuya frecuencia es 0. También puede “invertirse” la grá?ca, es agrupados en clases (10 a 13, etc.) decir, colocar en el eje vertical los valores de la variable y en el eje horizontal, las frecuen- cias de esos valores. Hasta ahora hemos trabajado con una variable (inasistencias diarias de los alum- Si se toman solamente los vértices superiores de los segmentos o barras verticales co- nos a la escuela) discreta. Veamos un ejem- rrespondientes a las frecuencias, se construye una nueva grá?ca, conocida como polígono plo para una variable continua, como el de frecuencias. Para nuestro ejemplo: peso o la estatura de las personas.

En nuestro medio escolar, el conoci- miento (y seguimiento) del peso y de la estatura de nuestros alumnos tiene su im- portancia, ya que éstos se encuentran en pleno proceso de desarrollo; vale la pena, pues, recolectar los datos correspondientes e, incluso, hacerlo periódicamente. 11

edu.red

En cuanto a la organización de su pre- sentación, que es lo que ahora nos ocupa, enseguida percibimos que lo más práctico es distribuir los datos individuales en clases o intervalos ya que, con seguridad, habrá muchos datos diferentes. De aquí se sigue que las representaciones más apropiadas para estos datos serán la tabla y la grá?ca correspondientes a la distribución de datos agrupados.

Supongamos que los pesos de 31 alum- nos de una clase son (en Kg): {37,8; 35,6; 34; 31,9; 40,5; 34,2; 35,6; 38,7; 32,8; 35,4; 41,6; 39,8; 34,5; 37; 42; 36,6; 31,9; 36,5; 35,7; 36; 38; 44,1; 37,2; 36,8; 35; 33,5; 38,9; 37,5; 34; 36,5; 42,5}.

La primera actividad de observación nos lleva a buscar los valores extremos; éstos son: 31,9 y 44,1 Kg. Ahora podemos deci- dir en cuantas clases o intervalos dividimos el grupo, tomando en cuenta que tampoco nos conviene tener un número excesivo de clases; para nuestro caso, un número apro- piado puede ser 4 ó 5 clases.

Supongamos que optamos por 4 clases. Esto signi?ca que el gran intervalo entre los valores extremos (de 31,9 a 44,1), cuya di- ferencia es 12,2, debe repartirse en cuatro lotes de igual tamaño. El tamaño de cada intervalo debe ser, pues, el cociente de 12,2 / 4, que es 3,05, que puede redondearse a 3,1.

Esto signi?ca que si el primer intervalo empieza en el valor menor (31,9), el segun- do debe empezar en 31,9 + 3,1 = 35; el ter- cero debe empezar en 35 + 3,1 = 38,1; y el 12 cuarto, en 38,1 + 3,1 = 41,2. A partir de estos valores deducimos cuáles son los valores mayores de cada intervalo: 34,9; 38; 41,1 y 44,2 (observe que la diferencia entre dos de estos valores seguidos es también 3,1.

Ahora podemos construir la tabla que representa la distribución de datos agrupados:

y la grá?ca correspondiente, que en el caso de las variables continuas, se denomina histograma (histos [tejido] + gramma [grá?co]):

Obsérvese que en el histograma los rec- tángulos se adosan unos a otros, ya que la variable es continua. Por esta razón, en el eje horizontal se colocan valores divisorios de las sucesivas clases o intervalos. ¿Cómo se obtiene cada uno de ellos? Se toman dos valores sucesivos, el ?nal de una clase y el inicial de la clase siguiente, y se busca el valor intermedio.

Por ejemplo, 34,95 es el valor intermedio entre 34,9 (valor ?nal del primer intervalo) y 35 (valor inicial del segundo intervalo). Calculado uno de estos valores divisorios, los demás pueden obtenerse agregando o restando el valor de la amplitud del intervalo (3,1). Así se llega, en particular, a los valores divisorios extremos (31,85 y 44,25).

Recolecte los datos de peso y de estatura de los alumnos de su clase y elabore, para cada variable, la tabla y la grá?ca de la distribución de datos agrupados correspondiente.

edu.red

2.4. En cuarto lugar, analizarlos

Los dos puntos anteriores, referidos a la recolección de datos y a la orga- nización de su presentación, no tienen ningún sentido si no desembocan en un análisis de los mismos. Porque recorde- mos que los datos –y la información que se deriva de ellos- tienen como objetivo facilitar nuestra toma de decisiones.

El análisis de los datos es un campo muy complejo, cuyo desarrollo ocupa el espacio más extenso e importante de la Estadística (lo que se llama la Estadística Inferencial). En este Cuaderno no vamos a entrar en él. Pero sí vamos a propo- nernos analizar y sacar conclusiones de estas primeras formas sencillas de orga- nizar los datos (Estadística Descriptiva), con el fin de percibir cómo la informa- ción ya fluye realmente de ellos.

Volvamos a nuestro primer ejem- plo, el de las inasistencias diarias de los alumnos a la escuela, y las tres formas en que organizamos su presentación (or- denados de menor a mayor, la tabla de distribución de frecuencias, y la tabla de distribución de frecuencias para datos agrupados).

La primera forma de organización nos sugiere que el número de inasisten- cias diarias, durante el mes estudiado, oscila entre una y dos docenas, aproxi- madamente; que es irregular, es decir, que varía de día en día; y que el número más frecuente de inasistencias ha sido de 17 y 18 (3 veces cada uno). La tabla de distribución de frecuencias nos permite volver a encontrar y, además, ampliar la información anterior. Por ejem- plo, nos permite averiguar en cuántos días del mes se contaron 20 ó más inasistencias (este dato puede ser de interés si, por ejem- plo, 20 es un número crítico para la escue- la, en el sentido de que cuando se alcanzan o superan las 20 inasistencias diarias, se de- termina una emergencia escolar…).

¿Cómo calcular ese número de días del mes en que se contaron 20 ó más in- asistencias diarias? A partir de la tabla de distribución de frecuencias, basta con su- mar las frecuencias correspondientes a los datos 20, 21, 23, 24 y 26 (2 + 2 + 1 + 1 + 1 = 7): durante 7 días las inasistencias llegaron a 20 o estuvieron por encima de ese número.

Como se ve, la tabla de distribución de frecuencias puede servirnos para obtener información nueva referida a la acumula- ción de frecuencias entre ciertos valores de la variable. Por ejemplo, podemos pregun- tar cuántos datos estuvieron por debajo de tal valor, o entre dos valores dados, o fue- ron superiores a determinado valor.

Para responder más directamente a este tipo de tareas, podemos construir una nueva tabla de distribución de frecuencias en la que aparece una nueva columna, la referente a las frecuencias acumuladas; es decir, para cada dato, además de su frecuencia propia, vamos a anotar la suma de las frecuencias correspondientes a los datos inferiores, más la suya propia. En nuestro ejemplo sería: Como se puede observar, la frecuen- cia acumulada correspondiente al valor más alto debe coincidir con el total de la población estudiada (20). Si queremos saber durante cuántos días el número de inasistencias diarias estuvo por debajo de 18, basta con leer la frecuencia acumula- da correspondiente a 17: durante 8 días. Y para saber durante cuántos días estuvo por encima de 19 (la pregunta inicial), basta restar de 20 la frecuencia acumula- da correspondiente a 19: 20 – 13 = 7.

2. ¿Tiene algún sentido elaborar una ta- bla con frecuencias acumuladas cuando se trata de una variable cualitativa? ¿Por qué? 13

edu.red

Siguiendo con el análisis de las inasis- tencias diarias, nos damos cuenta de que la tabla de distribución de frecuencias para datos agrupados no nos aporta mayor infor- mación adicional: solamente que la mayoría de los datos (8 de 20) está en el intervalo de 15 a 18 inasistencias diarias [Notemos que también es posible elaborar la columna de frecuencias acumuladas para el caso en que los datos vengan agrupados en clases].

Hemos utilizado tres de las herramien- tas habituales de organización de los datos para analizar los datos relativos a una va- riable (también podíamos habernos servido de las representaciones grá?cas correspon- dientes…). Sin embargo, esto no signi?ca que hayamos agotado todas las posibles vías de su representación y análisis subse- cuente.

Por ejemplo, podíamos haber separado los datos de inasistencias en lotes de a cin- co días, con el ?n de destacar lo que ocu- rrió cada semana, de lunes a viernes: (15, 19, 18, 18, 17), (17, 11, 13, 19, 18), (20, 21, 23, 26, 24), (21, 20, 17, 15, 12). O también de esta manera:

14 La organización de los datos en esta ta- bla de doble entrada nos permite otro tipo de análisis:

• Comparar las semanas: Desde el ?nal de la 2a semana y, particularmente, durante la 3a, hubo un notable incremento de inasis- tencias; esto nos dice que la tercera sema- na ocurrió algo particular, actuó una causa especial (alguna enfermedad, inclemencias climáticas…) cuyo efecto posiblemente fue menguando durante la última semana…. • Comparar los mismos días de cada se- mana: Por ejemplo, los lunes no han sido, durante este mes, los días críticos para la inasistencia escolar; tampoco los viernes. No se mani?estan hábitos de ausencia alre- dedor del ?n de semana…

Como se puede apreciar, ninguna de estas informaciones nos ha sido propor- cionada por las herramientas estadísticas de organización de los datos que hemos manejado con anterioridad. Esta a?rmación nos rea?rma en el convencimiento de que el último tipo de organización de los datos que hemos manejado es pertinente para su registro y análisis, ya que se trata de una secuencia de datos en el tiempo y, en este caso, es de suma importancia no perder el carácter temporal de la información.

De todo lo anterior queremos extraer algunas conclusiones importantes:

• Hay que saber seleccionar, en cada caso, los instrumentos estadísticos de or- ganización de los datos que nos puedan aportar información pertinente. En nuestro ejemplo, no nos interesa la distribución de frecuencias para los datos agrupados en cla- ses, ya que no aporta nada adicional.

• No debemos cerrarnos a la posibilidad de construir y utilizar otras formas adiciona- les de organización de los datos, con el ?n de extraer información valiosa. En nuestro ejemplo, la tabla de doble entrada resultó ser un instrumento de registro que permitió obtener información adicional muy perti- nente.

edu.red

15 ¿Qué información podemos inferir de esta grá?ca? Pues, entre otras cosas:

• Un poco más de la tercera parte del ingreso (35,4 %) se dedica a alimentación; este rubro aparece como prioritario. • Los rubros de alimentación, vivienda y servicios, y transporte son los que absorben casi las dos terceras partes (63,6 %) del ingreso familiar. Tome el ejemplo de los pesos de los 31 alumnos antes considerado, analice los datos presentes en la tabla correspondiente y llegue a algunas conclusiones.

He aquí una grá?ca de barras relativa a la distribución porcentual del ingreso familiar para atender a los gastos correspondientes a los rubros indicados (datos de uno de nues- tros países latinoamericanos, año 2003):

Obsérvese que la variable distribución porcentual del ingreso familiar es cualitativa, y que sus categorías son, precisamente los rubros o áreas de necesidad indicadas. Por otro lado, las barras son horizontales y, en lugar de las frecuencias de cada valor de la variable, aparecen los porcentajes correspondientes. 30%

Alimentación Renta Ropa • El ahorro prácticamente no cuenta para las familias; puede presumirse que no hay cultura de ahorro o que, con más seguridad, las necesidades básicas son tan perentorias que no existe la posibilidad de ahorrar. • En resumen, se trata de la distribución propia de un país en el que la población destina el ingreso familiar prácticamente para intentar garantizar la supervivencia del día a día…

La información contenida en esta grá?ca puede ser todavía mayor si, por ejemplo, los datos se recolectan periódicamente, lo que permitiría un seguimiento temporal con el ?n de analizar las variaciones poblacionales en la distribución de su ingreso familiar.

Cuando se trata de una variable cuali- tativa cuya distribución en categorías viene cuanti?cada en porcentajes, puede utili- zarse también otro tipo de representación, denominada grá?ca circular o de pastel. Veamos un ejemplo similar al anterior, en el que se muestra la distribución de los gastos mensuales de un estudiante universitario fuera de su casa (Shadian, 1998): 8% 10% 38%

14% Libros Otros

edu.red

este ángulo, podemos calcular el porcentaje correspondiente de esta forma: p = . Como se ve, los porcentajes no se representan como barras de diferente longitud, sino como sectores circulares de diferente área (ver Cuaderno 15). Las áreas de estos sectores son proporcionales a los números que indican los porcentajes; a mayor (menor) porcen- taje, mayor (menor) área del sector, es decir, mayor (menor) abertura del ángulo central correspondiente.

Para determinar la medida de este ángulo central podemos utilizar una regla de tres muy sencilla:

Porcentaje (%) Medida del ángulo central del sector circular 100 360o p a

De esta forma, si conocemos el porcentaje correspondiente a una categoría de la varia- ble, obtendremos el ángulo del sector circular así: a = px360 . En caso de que conozcamos 100 ax100 360 En el ejemplo, veri?camos primero que la suma de los porcentajes sea 100 (hágalo). A partir de ahí, al porcentaje del 38 % le corresponde un ángulo central cuya medida es a = (38 x 360)/100 = 136,8o; y así se calculan todas las demás medidas. Luego, se traza una circunferencia y, con ayuda de un transportador, se van montando los sucesivos ángulos centrales adosando cada uno al anterior.

3. a) Si el estudiante del ejemplo anterior necesita 20.000 pesos en un mes dado, ¿cuánto gasta en alimentación durante ese mes? b) Si durante otro mes mantiene sus porcentajes de gastos y compra ropa por 2.100 pesos, ¿a cuánto ascienden sus gastos de ese mes en libros?

Hagan una pequeña encuesta en su escuela pidiendo por separado, a los niños y a las niñas, que indiquen cuál es el deporte de su preferencia. En cada uno de los dos casos, tomen los cuatro deportes más destacados y agrupen los demás como “Otros”. Conviertan las frecuencias de selección en porcentajes (la suma de éstos debe ser igual a 100).

Con esta información, construyan las dos grá?cas circulares correspondientes. A partir de ellas, analicen las preferencias manifestadas por los alumnos (niños y niñas), por separa- do y comparativamente; valoren los pros y contras (si existen) de la práctica de cada uno de los deportes señalados (individualismo vs. labor de equipo; posibilidades de inclusión o de exclusión de una porción signi?cativa de alumnos; propensión o no hacia la violencia o ha- cia la tolerancia; excesiva o moderada competitividad; habilidades que se desarrollan…). 16 Y saquen sus conclusiones acerca de las posibilidades que tiene la escuela para satisfacer los deseos de los niños y niñas; por ejemplo, ¿existen las instalaciones, los preparadores y los implementos que esos deportes requieren?; ¿se organizan periódi- camente competiciones o campeonatos de esas disciplinas deportivas?; ¿se valoran y estimulan los logros de los alumnos y alum- nas en sus prácticas deportivas?…¿cómo mejorar las situaciones de?cientes?

3. Las medidas de tendencia central

Ya hemos visto lo que podemos hacer con los datos: valorarlos, recolectarlos, organizar su presentación y analizarlos. Vamos a verlos ahora desde otra perspec- tiva. Por ejemplo, podemos preguntarnos si existe(n) algún(os) dato(s) que sea(n) como especial(es), que pueda(n) mostrarnos algu- na característica muy particular de nuestra colección de datos o que pueda(n), incluso, representar a la colección completa.

En el punto 2.3., al presentar los datos ordenados de menor a mayor (o viceversa), decíamos que tal orden nos permite obser- var y anotar los valores mayor y menor, o el valor que se encuentra en el medio de los datos, o el (los) que más veces se repite(n)… A estos valores particulares po- demos agregar otro, de uso muy frecuente: el valor promedio de todos los datos.

edu.red

x x x x n + + + + … 3 2 1 3.1. La media 5. Calcule la media de inasistencias para los datos del ejemplo inicial: {15, 19, 18, 18, El valor promedio de todos los datos 17, 17, 11, 13, 19, 18, 20, 21, 23, 26, 24, 21, poblacionales recibe el nombre de media. 20, 17, 15, 12}. Existen diversos tipos de valores promedio, pero aquí nos vamos a referir a la media 6. Calcule la media de los pesos (en Kg) aritmética. Para obtenerla, se suman todos de los niños del ejemplo dado anteriormen- los datos y esta suma se divide entre el nú- te: {37,8; 35,6; 34; 31,9; 40,5; 34,2; 35,6; mero de datos considerados. 38,7; 32,8; 35,4; 41,6; 39,8; 34,5; 37; 42; 36,6; 31,9; 36,5; 35,7; 36; 38; 44,1; 37,2; 4. ¿Tiene sentido calcular la media de 36,8; 35; 33,5; 38,9; 37,5; 34; 36,5; 42,5}. los datos cuando la variable es cualitativa? ¿Por qué? Con el ?n de presentar una fórmula ge- neralizada para calcular la media de cual- En realidad, la media es el valor que quier conjunto de datos, procedemos así: cada sujeto de la población tendría si se repartiera “equitativamente” entre todos el • Denotamos con n el número de datos valor de la suma total de los datos de la po- del conjunto (31, en el último ejercicio). blación. La media puede coincidir o no con • Denotamos los n datos del conjunto alguno de los datos del conjunto. con los símbolos x1, x2,…, xn, donde, por ejemplo, x3 representa el tercer dato (34 a) Sea el conjunto de datos: {11, 7, 10, Kg, en el último ejercicio) y x18 es el que 9, 10, 8, 7, 10} ocupa la posición 18 (36,5 Kg, en el último La media es: (11+7+10+9+8+7+10) / 8 ejercicio). = 72 / 8 = 9 • Si denotamos la media con el símbolo La media coincide con uno de los da- x, la fórmula que permite calcular su valor tos del conjunto se expresa así:

b) Sea el conjunto de datos: {11, 8, 10, 8, 10, 8, 7, 10} x = [1] La media es: 72 / 8 = 9 n La media no coincide con ninguno de los datos del conjunto Como se ve, para calcular la media no hace falta que los datos estén ordenados, ya c) Sea el conjunto de datos: {10, 11, 12, que la suma es conmutativa. 13, 14, 15, 16, 17, 18, 19} La media es: 145 / 10 = 14,5 Por otro lado, veamos el caso en que los La media no coincide con ninguno de datos se presentan en una tabla de distri- los datos del conjunto bución de frecuencias, como la del primer ejemplo de inasistencias a la escuela: Para calcular la media efectuaríamos la suma: 11 + 12 + 13 + 15 + 15 + 17 + 17 + 17 + …; está claro que podemos abreviar la suma si los sumandos que se repiten se co- locan en forma de producto; por ejemplo: 11 + 12 + 13 + (2 x 15) + (3 x 17) + … Estos paréntesis recogen el producto del dato por la frecuencia con que aparece; incluso 11 puede verse como uno de esos productos, ya que la frecuencia de aparición del dato 11 es 1.

De modo que la suma de todos los da- tos, uno por uno, puede sustituirse por la 17

Partes: 1, 2, 3

Página anterior

Volver al principio del trabajo

Página siguiente