Gráficos de barras comparativas: Se utilizan para࣯mparar dos o más series, para comparar valores entre categorías.̡s barras pueden ser: Verticales Horizontales
Gráficos de barras e usan para mostrar las relaciones entre dos o más series con el total. Las barras pueden ser: verticales horizontales
Gráficos de líneas
En este tipo de gráfico se representan los valores de los datos en dos ejes cartesianos ortogonales entre sí. Se pueden usar para representar: una serie dos o más series
Una presentación adecuada y clara de los resultados de un trabajo de investigación además de ser fundamental para contribuir a la difusión de los mismos, puede incluso ser imprescindible para lograr que se acepte su publicación. En la actualidad la exigencia de las revistas y de los revisores ha contribuido a que el nivel de calidad en la presentación de datos sea bastante bueno, por lo que es conveniente tener algunas ideas muy claras para evitar errores o situaciones que hoy ya no son admisibles, lo que no solo nos preparará para la publicación de nuestros trabajos sino también para una lectura crítica de los de otros. Precisamente un buen punto de partida para obtener información, no sólo sobre cómo presentar nuestros resultados sino también sobre cómo preparar todo el conjunto del artículo, lo constituyen las propias guías suministradas por las revistas.
Un artículo bien concebido debe transmitir la mayor parte de la información con sólo leer el Abstract y los Resultados, siendo para ello vital que los datos, con las tablas y figuras correspondientes, estén bien presentados y organizados. En general no debiera ser necesario acudir al texto para entender una tabla o una figura; otro caso es para interpretarla, lo que ya corresponde al apartado de Discusión o Conclusiones.
La manera de presentar los datos es diferente según el tipo de los mismos. De forma rápida podemos hacer dos grandes grupos: datos cuantitativos y datos cualitativos. En el grupo de datos cuantitativos tenemos aquellos cuyo resultado puede variar de forma continua, como puede ser el peso, la edad, etc. y los que sólo pueden tomar valores enteros como por ejemplo el número de hijos, el número de ingresados en la Unidad de Quemados un día concreto, etc. A su vez en las variables cualitativas distinguiremos las nominales, que constituyen una simple etiqueta -como puede ser el sexo, el grupo sanguíneo, etc.- de las ordinales, en las que se da una relación de orden entre las respuestas, como por ejemplo en el resultado de una patología/tratamiento (fallece, empeora, sin cambios, mejora, curación) o el nivel educacional. Cada tipo variable tiene requerimientos propios en cuanto a presentación y en cuanto a las pruebas que se utilizan para contrastar los valores entre diferentes grupos.
Observados en ella serán válidos aproximadamente para esa población, y los procedimientos estadísticos nos permiten cuantificar la magnitud del término "aproximadamente", lo que dependerá del tamaño y representatividad de la muestra (error de muestreo), la variación debida a las técnicas de medida empleadas (error de medida), y la propia variabilidad del proceso estudiado (error aleatorio).
La precisión de la estimación efectuada a partir de los datos del estudio se refleja en el intervalo de confianza. El intervalo de confianza de un parámetro viene dado por dos límites, inferior y superior, en el que, de acuerdo con nuestros datos, esperamos que se encuentre el valor verdadero del parámetro de la población (desconocido), con un nivel de seguridad determinado y que se suele fijar en el 95%.
El intervalo de confianza es mucho más informativo que indicar solo si un resultado ha sido estadísticamente significativo, incluso aunque se dé el valor de la probabilidad
Representaciones gráficas pueden alcanzar en el proceso de análisis de datos. La mayoría de los textos estadísticos y epidemiológicos4 hacen hincapié en los distintos tipos de gráficos que se pueden crear, como una herramienta imprescindible en la presentación de resultados y el proceso de análisis estadístico. No obstante, es difícil precisar cuándo es más apropiado utilizar un gráfico que una tabla. Más bien podremos considerarlos dos modos distintos pero complementarios de visualizar los mismos datos. La creciente utilización de distintos programas informáticos hace especialmente sencillo la obtención de las mismas. La mayoría de los paquetes estadísticos (SPSS, STATGRAPHICS, S-PLUS, EGRET,…) ofrecen grandes posibilidades en este sentido. Además de los gráficos vistos, es posible elaborar otros gráficos, incluso tridimensionales, permitiendo grandes cambios en su apariencia y facilidad de exportación a otros programa
Figura 1. Ejemplo de gráfico de sectores. Distribución de una muestra de pacientes según el hábito de fumar. |
Figura 2. Ejemplo de gráfico de barras. Estadio TNM en el cáncer gástrico. |
Figura 3.Ejemplo de un histograma correspondiente a los datos de la Tabla I. |
Figura 4. Polígono de frecuencias para los datos de la Tabla I. |
Figura 5.Ejemplo de un diagrama de caja correspondiente a lo datos en la Tabla I. |
Figura 7. Diagrama de barras agrupadas. Relación entre la presencia de alguna enfermedad coronaria y los antecedentes cardiacos familiares en una muestra.
|
Figura 8. Barras de error. Variación en el índice desa corporal según el sexo. |
Figura 9. Gráfico de líneas. N úmero de pacientes trasplantados renales en el Complexo Hospitalario "Juan Canalejo" durante el periodo 1981-1997. |
Figura 10. Diagrama de dispersión entre la talla y el peso de una muestra de individuos. |
Figura 11. Dos diagramas de líneas superpuestos. Variación en el peso medio de una muestra de recién nacidos según el control ginecológico del embarazo y el hábito de fumar de la madre. |
Figura 12. Diagrama de dispersión (regresión logística). Probabilidad de padecer cirrosis hepática, según un modelo de regresión logística ajustando por el % de protrombina y el presentar o no hepatomegalia. |
Figura 13. Curva ROC para el porcentaje de protrombina en la predicción de cirrosis. |
En estadística denominamos gráficos a aquellas imágenes que, combinando la utilización de sombreado, colores, puntos, líneas, símbolos, números, texto y un sistema de referencia (coordenadas), permiten presentar información cuantitativa. La utilidad de los gráficos es doble, ya que pueden servir no sólo como sustituto a las tablas, sino que también constituyen por sí mismos una poderosa herramienta para el análisis de los datos, siendo en ocasiones el medio más efectivo no sólo para describir y resumir la información, sino también para analizarla.
El propósito de un gráfico no es entonces muy diferente del de cualquier otra herramienta estadística: ayudar a la comprensión y comunicación de la evidencia aportada por los datos respecto a una hipótesis en estudio. Un gráfico científico debe servir por tanto para representar la realidad, no para generar nuevas realidades inexistentes fuera de la propia imagen. La llegada de los ordenadores y de programas para la generación de gráficos y presentaciones ha puesto en manos del usuario común una herramienta poderosa, antes de que disponga de los conocimientos o la mentalidad adecuada para usarla, y de esa forma nos vemos invadidos, cierto que con honrosas excepciones, por una insensata proliferación de gráficos mercantilistas que parece que tienen como único objetivo hacernos ver la capacidad del programa utilizado: llenos de una variada gama de colores, todo tipo de fuentes de letras imaginables, casi tantos como palabras, y por supuesto representación al menos en tres dimensiones. Todo lo contrario de lo que un buen gráfico científico debe ser, en el que su calidad radica precisamente en la simplicidad de la presentación para permitir visualizar unos datos complejos.
En este artículo nos vamos a centrar únicamente en los gráficos como vehículo de presentación de datos, sin abordar su otra faceta como herramienta de análisis.
La calidad de un gráfico estadístico consiste en comunicar ideas complejas con precisión, claridad y eficiencia, de tal manera que:
Induzca a pensar en el contenido más que en la apariencia
No distorsione la información proporcionada por los datos
Presente mucha información (números) en poco espacio
Favorezca la comparación de diferentes grupos de datos o de relaciones entre los mismos (por ejemplo una secuencia temporal)
A su vez los gráficos se integran dentro de un contexto de presentación, por ejemplo en papel o proyectados en una pantalla en una presentación oral, y deben estar adecuadamente diseñados para el soporte al que van destinados. Personalmente me resulta asombroso la enorme cantidad de veces que oigo atónito a un presentador, que nos muestra una transparencia o una diapositiva llena de texto minúsculo, ilegible para la audiencia, decir que "aunque uds probablemente no pueden leerlo"… ¿entonces para qué lo ha puesto en esa imagen? ¿qué arcana misión cumple entonces el texto que la audiencia no puede leer?. Lo mismo podemos decir de los gráficos en papel ¿por qué contienen tantos puntos o rayas que no se pueden distinguir unos de otros?
Aunque como norma general en los gráficos científicos los adornos sobran, tampoco hay que olvidar que a menudo también cumplen una misión estética, ayudando de esa forma a una presentación que quizás sería demasiado árida sólo con texto y números. Pero entonces esa función estética debe ser comprendida y valorada, quedando perfectamente integrada en el contexto de lo que se presenta, y no puede ser una disculpa para distorsionar su contenido.
Algunas sugerencias para la confección de gráficos
En un artículo las tablas y las figuras deben llevar numeración diferente, y mientras que el título de una tabla debe ir en la parte superior de ésta, el de la figura se colocará en la parte inferior.
Si se piensa utilizar un gráfico es porque aporta algo a la presentación de los datos; no tiene sentido gastar innecesariamente espacio con una imagen, como en la figura de la izquierda, en la que mediante barras representamos dos frecuencias, cuando los datos se pueden expresar con una simple frase o con una pequeña tabla.
La moda imperante de utilizar perspectiva para simular tres dimensiones en gráficas en las que únicamente se representa 2 dimensiones de los datos o a veces incluso sólo una dimensión (como son los diagramas de barras en la que la única dimensión de los datos, la frecuencia absoluta o relativa, corresponde a la altura de la barra, ya que la anchura no mide nada), distorsiona las relaciones entre los distintos elementos de los gráficos magnificando unas y empequeñeciendo otras y por lo tanto constituye un elemento no deseable, por lo que nuestra encarecida recomendación es no utilizar en esos casos representaciones en 3 dimensiones.
En la imagen de la izquierda vemos un ejemplo de flagrante confusión a la hora de percibir la información por el observador. Entre las dos últimas barras de la derecha parece que existe escasa diferencia, aunque con distinto signo, pero si nos fijamos en el escalado del eje, la barra morada tiene menos de 10 unidades de altura, si tomamos como referencia la cara frontal, pero si nos fijamos en la cara posterior, la altura es superior a 10 (está por encima de la línea de 60). Sin embargo en la barra última, de color rojo, cuando nos fijamos en la cara en primer plano la altura parece ser de 20 unidades, y si tomamos como referencia la cara posterior parece que la altura corresponde a algo más de 15 unidades. ¿Con qué nos quedamos? Un verdero lío. Este ejemplo no está preparado, se trata de un caso real que me presentaron hace pocos días: no es necesario escarbar mucho para encontrar ejemplos a nuestro alrededor.
Un tipo de representación muy utilizado son las tartas y sin embargo desde el punto de vista de la comunicación de resultados son totalmente inadecuadas, hasta tal punto que nuestra recomendación es no emplearlas nunca y mucho menos con tres dimensiones
Categoría
Frec.abs.
%
No sabe leer ni escribir
69
7,8
Sin estudios
246
27,9
Estudios primarios incompletos
262
29,7
Estudios primarios completos
129
14,6
Estudios de graduado escolar
85
9,7
Estudios de bachiller superior
57
6,5
Estudios universitarios medios
24
2,7
Estudios universitarios superiores
9
1,0
Total
881
En la tabla de la izquierda se presentan los datos procedentes de un estudio real, correspondientes al nivel cultural de 881 pacientes diabéticos, atendidos en régimen ambulatorio.
En la tarta que vemos más abajo se han representado los datos de esa tabla utilizando como lamentablemente es habitual tres dimensiones. No sé qué le parecerá a ud lector, pero a mí, si me fijo en los sectores amarillos (Estudios primarios incompletos) y verde (Sin estudios), me parece que el sector verde es algo más grande que el amarillo, lo que está en clara contradicción con los datos de la tabla. Les aseguro que el gráfico no está "amañado", me he limitado a capturar la pantalla de mi programa. Prueben con su programa favorito. El problema óptico radica en dónde coloquemos cada sector.
Fíjense en cambio en el diagrama de barras de la siguiente figura. Ahora sí se está reflejando adecuadamente los datos en el gráfico y nos permite establecer relaciones visuales fiables entre ellos.
Veamos seguidamente cómo queda en una presentación estándar de PowerPoint. La primera tarta corresponde a los datos de la tabla tal y como los presenta ese programa y en la segunda tarta intercambiamos la posición de los sectores amarillo y verde, sin variar los porcentajes, pero no es eso lo que parece en la imagen, ya que el sector verde parece más pequeño que el amarillo en la primera tarta, y mayor en la segunda.
En general es mejor presentar una tabla que una tarta, o un diagrama de barras, sobre todo si se desea comparar con otros datos.
La pereza intelectual nos lleva a adoptar modas, tanto en la utilización de procedimientos estadísticos como en la representación de datos, sin plantearnos si éstas son adecuadas. Conviene siempre reflexionar sobre lo que se hace. Así por ejemplo, viene siendo muy habitual representar los porcentajes con una barra y una línea que marca el intervalo de confianza de éste, como en la primera figura de la izquierda. Pero este tipo de representación tiene un cierto contenido de engaño, ya que la presencia de esas líneas para el intervalo de confianza marcan sólo el límite superior, y sin embargo es igualmente probable valores por debajo del extremo superior de la barra.
Una presentación más adecuada sería la de la segunda figura, que refleja esa característica de simetría del intervalo de confianza. Es igualmente probable obtener valores superiores o inferiores.
Otra costumbre, que no tiene mucho sentido, y también muy difundida es la de unir puntos entre los que no existe una relación secuencial. Sí que es lógico construir de esa forma curvas de evolución de crecimiento, de supervivencia, pero no es lógico unir puntos que no guardan relación secuencial. Por ejemplo, en la gráfica anterior, si los 10 ensayos que se representan en el eje de las X son independientes no tendría sentido unir los puntos; sí lo sería, si se trata de ensayos secuenciales.
En la siguiente figura vemos el perfil de la media de los resultados del cuestionario de calidad de vida SF-36 en los hombres (rojo) y mujeres (amarillo) en un grupo de pacientes diabéticos. Hay un punto para cada una de las dimensiones, que corresponden a los conceptos de función física, rol físico, dolor corporal, salud general, vitalidad, función social, rol emocional y salud mental. La moda es presentar los puntos unidos por una línea ¿por qué?. No dudo de que haya alguna razón, pero ¿los que así lo presentan conocen el motivo o lo hacen sólo por moda?
La utilización de un escalado adecuado es imprescindible en un buen gráfico estadístico. Es fundamental sobre todo si se van a comparar diferentes gráficas, ya que entonces los ejes deben tener el mismo recorrido y las gráficas tener el mismo tamaño.
El recorrido de los ejes contiene en sí mismo también información. Así en la gráfica anterior, se quería indicar que el resultado posible de cada una de las escalas va de 0 a 100, y que las diferencias entre el grupo de mujeres y de hombres, siendo importantes, pueden quedar minimizadas en ese campo de variación. Si pretendiéramos realzar esas diferencias hubiéramos elegido otro recorrido para el eje:
En ambos casos el recorrido elegido transmite por sí mismo un mensaje, por lo tanto debe escogerse adecuadamente.
Es difícil, sino imposible, dar consejos generales en cuanto a cómo elaborar un gráfico, si acaso sólo unas mínimas normas básicas como las que venimos comentando. Hay que tener en cuenta además que el gráfico cumple también una función estética, que fomenta la lectura del texto y ayuda a su comprensión. Y en el aspecto estético es donde será más complicado lograr un consenso. Quizás la única norma general sea la de buscar sencillez y claridad, incluso el uso del color debe ser moderado y bien elegido. Las líneas debieran ser finas, eliminándose aquellas que son superfluas y enmarañan el gráfico. Solo se utilizarán rejillas si se considera necesario para ayudar a la interpretación y ubicación de los datos. En la imagen debe haber un adecuado balance entre el espacio en blanco y el que contiene datos, aunque en ocasiones el espacio en blanco sí que contiene información y transmite un mensaje, como en la gráfica anterior sobre calidad de vida, cuando decidíamos presentar todo el rango de variación con el fin de minimizar la importancia de las diferencias.
En el gráfico ideal no tenemos que acudir al texto para interpretarlo.
Debe existir una adecuada relación entre el texto, las tablas y las imágenes, siendo fáciles de localizar y encontrándose próximas al texto donde son referenciadas y a ser posible en la misma página. También una buena idea puede ser combinar texto y tablas embebidas, para facilitar la
Lectura, ya que muchos números seguidos en una misma frase son difíciles de comprender. Veamos un ejemplo.
Se encontró una diferencia importante en la PAS entre el grupo de pacientes obesos y el resto, de 5.1 mmHg (Int.confianza del 95% de 3.7 a 7.2), con los siguientes valores en cada grupo:
Grupo
Media
Desv.Típ.
Tam.
OBESO=NO
136,54
15,04
476
OBESO=SI
141,62
15,00
355
Incluir aquí la tabla con los datos en ambos grupos es mucho más legible que si hubiéramos continuado la frase indicando, a continuación de los valores de la diferencia, los datos de cada grupo. Así, con la tabla, resulta mucho más fácil de leer que si se expresa con un párrafo; por supuesto siempre que la tabla quede embebida en el texto y no vaya colocada en otro punto, y hagamos referencia a ella con el consabido véase tabla n, lo que distraerá la atención.
Hay muchas otras posibilidades de gráficos, además de las tartas, barras, nubes de puntos y curvas, que constituyen una alternativa más eficiente de presentación que el texto. Por ejemplo, una información que debería figurar en todo trabajo de investigación, es la relativa al colectivo de sujetos del que se extrajo la muestra analizada, así como el procedimiento utilizado y la evolución del tamaño de muestra durante el desarrollo del estudio. Este tipo información resulta complicado de describir sólo con texto y sobre todo difícil de seguir por el lector, siendo mucho más ilustrativa la presentación de un diagrama de flujo, tal y como proponen las recomendaciones CONSORT, de las que hemos extraído el ejemplo de la figura.
Las características globales de un conjunto de datos estadísticos pueden resumirse mediante una serie de cantidades numéricas representativas llamadas parámetros estadísticos. Entre ellas, las medidas de tendencia central, como la media aritmética, la moda o la mediana, ayudan a conocer de forma aproximada el comportamiento de una distribución estadística.
Medidas de centralización
Se llama medidas de posición, tendencia central o centralización a unos valores numéricos en torno a los cuales se agrupan, en mayor o menor medida, los valores de una variable estadística. Estas medidas se conocen también como promedios.
Para que un valor pueda ser considerado promedio, debe cumplirse que esté situado entre el menor y el mayor de la serie y que su cálculo y utilización resulten sencillos en términos matemáticos.
Se distinguen dos clases principales de valores promedio:
Las medidas de posición centrales: medias (aritmética, geométrica, cuadrática, ponderada), mediana y moda.
Las medidas de posición no centrales: entre las que destacan especialmente los cuantíales.
Las medidas de centralización son parámetros representativos de distribuciones de frecuencia como las que ilustra la imagen.
Media aritmética
Se define media aritmética de una serie de valores como el resultado producido al sumar todos ellos y dividir la suma por el número total de valores. La media aritmética se expresada como
Dada una variable x que toma los valores x1, x2, …, xn, con frecuencias absolutas simbolizadas por f1, f2, …, fn, la media aritmética de todos estos valores vendrá dada por:
Media ponderada
En algunas series estadísticas, no todos los valores tienen la misma importancia. Entonces, para calcular la media se ponderan dichos valores según su peso, con lo que se obtiene una media ponderada.
Si se tiene una variable con valores x1, x2, …, xn, a los que se asigna un peso mediante valores numéricos
p1, p2, …, pn, la media ponderada se calculará como sigue:
El cálculo de la media aritmética de una serie de valores puede abreviarse si se resta a todos los valores un mismo número elegido convenientemente.
Cantiles
Los cuantíeles son medidas de tendencia no centrales, que permiten determinar la proporción de la población de una variable estadística cuyos valores estadísticos son menores o iguales que un valor tomado como referencia. Este valor puede determinarse dividiendo la población en diez partes (deciles), cien partes (percentiles), etcétera.
Variables estadísticas
En el mundo natural y en las sociedades humanas existen fenómenos cuyo comportamiento no puede establecerse mediante leyes fijas, sino que obedecen a la conjunción de múltiples factores cuya interacción es a menudo incontrolable. En tales casos se recurre a análisis estadísticos, que recogen datos sobre un número elevado de manifestaciones del fenómeno y los relacionan y describen por medio de tablas, gráficos y valores numéricos representativos.
Conceptos de estadística
En el manejo de modelos estadísticos se utilizan tres conceptos fundamentales:
Población, definida como el conjunto de todos los elementos que verifican una cierta característica considerada de interés para el estudio estadístico.
Individuo, cada uno de los elementos de una población. El número de individuos define el tamaño de la población.
Muestra o subpoblación, entendida como cualquier subconjunto representativo de la población considerada.
Por su parte, los individuos de una población poseen una serie de cualidades o propiedades que, genéricamente, se conocen por caracteres. Existen dos clases de estas propiedades:
Cuantitativas, susceptibles de expresarse mediante números. Por ejemplo, la edad, el número de hijos, el peso o la estatura.
Cualitativas, que sólo pueden explicarse mediante palabras, como el color del pelo, la nacionalidad, el sexo, el estado civil, etc.
Clases de variables estadísticas
El conjunto de valores que constituyen un carácter estadístico se denomina variable estadística. En términos estrictos, se denomina variable estadística a todo carácter cuantitativo de un individuo, mientras que los caracteres cualitativos se suelen llamar atributos.
Las variables estadísticas se clasifican en dos grandes grupos:
Variables discretas, que toman únicamente valores puntuales. Por ejemplo, el número de hijos de una mujer es siempre un valor entero: 0, 1, 2, 3, …
Variables continuas, que pueden tomar cualquier valor dentro del conjunto de los números reales R o de un intervalo suyo. Ejemplos de variables continuas son las medidas antropomórficas de los recién nacidos, la altura de los ciudadanos de un determinado colectivo, la medición de temperaturas, etcétera.
Se llama recorrido de una variable a la máxima diferencia que existe entre sus valores.
Clasificación de los caracteres estadísticos
Frecuencias
Si se observa un carácter en los elementos de una población, se determinará que aparece de la misma manera en un cierto número de ellos. Este concepto se denomina frecuencia, de forma que:
Se denomina frecuencia absoluta al número de veces que aparece cada valor de una variable dentro del conjunto de datos. La frecuencia absoluta del carácter i se expresa como fi.
Se llama frecuencia relativa, y se expresa como hi, al cociente entre la frecuencia absoluta del carácter y el número total de observaciones n. Es decir:
hi = fi/n
Cuando se ordenan los valores de la variable en sentido creciente o decreciente y se van sumando hasta un cierto valor determinado, se habla de frecuencia acumulada, que puede ser absoluta o relativa según el concepto de frecuencia que se considere.
Presentación de tablas
Una primera forma de presentación de datos estadísticos se basa en el uso de tablas. Las más sencillas son las tablas de distribución de frecuencias, donde se indican en columnas:
El valor de la variable.
La frecuencia absoluta, la frecuencia relativa y, en ocasiones, la frecuencia acumulada.
En las tablas estadísticas se cumplen algunas propiedades interesantes que sirven de mecanismos de control de su exactitud:
La suma de todas las frecuencias absolutas es igual al tamaño de la población de la muestra.
La suma de las frecuencias relativas es siempre igual a 1.
La última frecuencia absoluta acumulada coincide con el número total de observaciones.
La última frecuencia relativa acumulada es igual a la unidad.
Clases de estadística
La estadística es una ciencia que estudia colecciones de datos numéricos para extraer inferencias de ellos basadas en diversos métodos. A menudo, se emplean cantidades numéricas representativas (de tendencia central, como la media aritmética, y de dispersión, como la desviación típica), para ilustrar las propiedades de estos conjuntos numéricos; esta rama de la estadística recibe el nombre de deductiva o descriptiva. En cambio, cuando recurre al estudio de subpoblación es o muestras (por ejemplo, en encuestas entre ciertos colectivos), hace uso de la teoría de probabilidades, en una especialidad denominada estadística
Frecuencia de grafico de líneas
EJ: Agrupar en una tabla de datos
10, 1, 6, 9, 2, 5, 7, 4, 3, 8 – 45
– Tablas de frecuencias: Una tabla de frecuencia esta formada por las categorías o valores de una variable y sus frecuencias correspondientes. Esta tabla es lo mismo que una distribución de frecuencias. Esta tabla se crea por medio de la tabulación y agrupación, la cual es un método sencillo como lo habíamos empezado a ver en la tabla de datos, Se realiza el mismo procedimiento de tabulación anteriormente descrito si el numero de valores observados para la variable, se trabaja con una sola variable, descontando los repetidos son pequeños, si existen repetidos la frecuencia f es el numero de repeticiones de un valor de X dado, Sin embargo, cuando el conjunto de datos es mayor, resulta laborioso trabajar directamente con los valores individuales observados y entonces se lleva a cabo, por lo general, algún tipo de agrupación como paso preliminar, antes de iniciar cualquier otro tratamiento de los datos. Las reglas para proceder a la agrupación son diferentes según sea la variable, discreta o continua, para una variable discreta suele resultar conveniente hacer una tabla en cuya primera columna figuren todos los valores de la variable X representados en el material, y en la segunda, la frecuencia f con que ha aparecido cada valor de X en las observaciones.
Para una variable continua, el procedimiento de agrupación es algo más complicado. Se toma un intervalo adecuado sobre el eje de la variable que contenga los n valores observados, y divídase el intervalo en cierto numero de intervalos de clase. Todas las observaciones que pertenecen al mismo intervalo de clase se agrupan y cuentan, y él numero que resulte representa la frecuencia de clase correspondiente a dicho intervalo, luego se forma una tabla, en cuya primera columna figuran los limites de cada intervalo de clase, y en la segunda aparecen las correspondientes frecuencias.
Estas clases de tablas son las mas usadas y brindan mayor información de los datos que las tablas de entradas de datos, efectivamente, una tabla de este tipo dará en forma abreviada, una información completa acerca de la distribución de los valores observados. Con estas se pueden utilizar mas a fondo los métodos gráficos al igual que los métodos aritméticos.
Página anterior | Volver al principio del trabajo | Página siguiente |