Introducción al análisis gráfico de Datos tabulados reales (Registros) con aplicación agrícola

Introducción
El registro
Los gráficos
Uso del modelo lineal para analizar registros
Validez de un modelo: el error y su naturaleza
Diagnóstico y pronóstico
Literatura recomendada

INTRODUCCIÓN

La Bioestadística es la disciplina o rama de la estadística que procesa la información biológica con herramientas de las Matemáticas, Cálculo y Lógica. Es decir, se encarga de capturar o recopilar información relevante de procesos o fenómenos biológicos, darle tratamiento estadístico, buscar modelos matemáticos confiables y establecer reglas generales y específicas que explican lo estudiado.

En palabras simples, es típico en Bioestadística: observar, medir, caracterizar, analizar, simular o modelar, aplicar, concluir o inferir. La Bioestadística es una disciplina que se nutre de la biometría; sus beneficios y aportes a la vida técnica o profesional requieren de nuestra dedicación, comprensión y ser tomada como una poderosa herramienta de análisis y estudio.

EL REGISTRO

Los datos medidos por una persona idónea desde un ensayo, experimento, proceso o fenómeno de interés (agrícola) van a una planilla o cuadro compuesto de filas y columnas. Matemáticamente, ésta consta de 2 variables y se conoce como "tabla de doble entrada (x/y)". Esta Tabla se llena ordenadamente estableciendo parejas de datos ("pares ordenados"), normalmente en orden de aparición. Para fines de estudios agrícolas, esta tabla la llamamos "Registro".

En todo Registro deberíamos reconocer 2 o más columnas donde las características relevantes o factores que estudiamos se reducen a números con unidades. Por comodidad, de izquierda a derecha se ponen las variables X, Y, Z. etc, identificando la causa (muchas veces, X) y el efecto (en general, Y). Ver Cuadro 1.

Cuadro 1. Ejemplo de Registro (Captura de Polillas durante Enero. Curicó, 2013)

X Día de Monitoreo (Enero, 2013)	Y Nivel de captura (promedio, machos/trampa)
7	8
9	15
11	35
13	52
15	22

LOS GRÁFICOS

Para fines de estudios estadísticos de información agrícola, todas las parejas de puntos (x, y) o datos del Registro se trasladan a un gráfico pertinente (*) mediante el uso de cruces verticales (+); esto es la transcripción de los datos reales u observados. Esta metodología permite dibujar con cierta seguridad los puntos y revisar cualquier error involuntario en terreno.

Sin embargo, el uso de otra simbología para marcar los puntos reales, dependerá del método de graficación, tema en estudio, software estadístico usado, público lector, etc. Ver Figura 1.

Figura 1. Ejemplo de una transcripción de datos reales a un Gráfico.

edu.red

Hecha la transcripción de los datos a un Gráfico, se traza una línea envolvente a todos ellos y se define una región llamada "Nube de puntos". Esta incluye todos los posibles puntos reales de un experimento o proceso de interés, sometidos a las mismas condiciones del estudio en cuestión. A continuación, se traza por la mitad de la nube de puntos, el mejor modelo matemático según sea la tendencia natural de los datos (rectas, parábolas, logarítmica, etc.). En el caso del Cuadro 1, la tendencia es no lineal (es parabólica), ya que describe la llegada de insectos voladores a trampas de feromonas.

Si esto se hace a mano en terreno, se debe tener el cuidado de que el modelo elegido distribuya homogéneamente los puntos según la silueta del gráfico. Si se hace mediante un procedimiento matemático, el método aludido se llama "Correlación y Regresión". Ver Figura 2.

(*) Nota= Revisar en detalle el Capítulo dedicado a los gráficos estadísticos y su "pertinencia".

Figura 2. Ejemplos de gráficos según tendencia de los datos.

edu.red

USO DEL MODELO LINEAL PARA ANALIZAR REGISTROS

Como es lógico, al observar los datos transcritos a un Gráfico, el primer modelo a considerar debería ser el modelo lineal Y= mX+ n (1), en segundo lugar cualquiera de los otros modelos no lineales (parábolas, etc.). La intención detrás de este esfuerzo es hallar una fórmula que, en general, replique el comportamiento natural de los datos y así, con esta fórmula, hallar puntos de interés y anticiparse a otros eventos futuros.

El modelo lineal en su forma llamada principal (Y=mX+ n) consta de las variables X e Y y las constantes "m" y "n". El valor de "m" corresponde a la pendiente de la recta respecto del Eje X (m>0, recta ascendente; m=0, recta paralela al Eje X; m<0, recta descendente de izquierda a derecha), mientras que "n" es el intersecto, o sea el punto de corte del modelo al Eje Y (0, n).

Para obtener el valor de la pendiente "m", normalmente se calcula a partir de la expresión:

m= (Y2- Y1)/(X2- X1)= ?Y/?X

Así mismo, el valor de "n" se calcula despejándola de la Ecuación (1) citada más arriba y quedando:

n= Yi- mXi

Como puede inferirse, requerimos de los puntos (X1, Y1) y (X2, Y2). Estos se sacan o estiman del Gráfico por inspección visual, tratando de minimizar nuestro error procedimental. Si la recta (de tendencia general) que trazamos toca alguna cruz en su recorrido, ése punto es válido y se ocupa para los cálculos. Ver Ejemplo siguiente.

Ejemplo de Aplicación

Sea el siguiente Registro sobre Peso (P) de fruta (cierto cultivar de manzanas) al acercarse la Cosecha (Fecha deå¬†C), en Rancagua (Chile):

Fecha de Cosecha, FC (Días desde cuaja)	Peso (P, gramos)
99	90
101	91
103	92
105	93

Método Básico de Análisis Estadístico Gráfico:

a) ¿Qué pasa con las Variables?

Las variables son coherentes, fecha de cosecha (FC) es la causa (X) y peso (P) es el efecto lógico (Y). Observar que el Registro contempla un período de 1 semana aproximadamente, entonces no sorprende mucho el comportamiento lineal de los datos. Ojo= La maduración de la fruta en el tiempo tiene un comportamiento sigmoideo, no linealå¼¯font>

b) ¿Cuál es el Gráfico?

Hacerlo como desafío personal, no es el objetivo de estos Apuntes.

c) Obtención de los Modelos pertinentes:

Tomando con cierto criterio los puntos (X1, Y1)= (100; 90,5) y (X2, Y2)= (104; 92,5), se obtiene los valores de "m" y "n" ocupando las fórmulas que están arriba:

m= (92,5-90,5)/(104-100)= 2/4= 0,5 [gramos/día]

Traducción= Cada día que pasa en esta localidad y en las condiciones del estudio, la fruta gana 0,5g de peso.

n= Y1- mX1= 90,5- 0,5*100= 40,5 gramos

Traducción= La fruta debería pesar 40,5g cuando el día de observación es X=0, o bien es el peso de cada manzana antes de iniciar el ensayo u observaciones (Puede tener o no tener sentido).

En consecuencia, los modelos teóricos para este Registro son:

Modelo Matemático: Y= 0,5X+ 40,5 y

Modelo Biológico: P= 0,5FC+ 40,5

Notar que el Modelo biológico es una pequeña variante del modelo matemático, en el cual hicimos cambio de variables, abreviando los factores por letras adecuadas. En general, una vez obtenido el modelo biológico, se usa para contestar todas las preguntas.

VALIDEZ DE UN MODELO: EL ERROR Y SU NATURALEZA

Un modelo es biológico cuando hemos adaptado el modelo matemático a una situación, fenómeno o proceso con seres vivos (insectos, plantas, etc.); el modelo se llamará técnico cuando represente un fenómeno o proceso con factores o variables inertes (clima, precipitaciones, etc.)

Una vez obtenido el modelo biológico o técnico por la metodología simplificada anterior, llega la hora de verificar su Calidad. No debemos olvidar que la intención original es "intentar" reproducir el comportamiento mediante una fórmula el fenómeno que capta nuestro interés. La Teoría de Errores dice muchas cosas respecto de éstos; vamos a revisar los conceptos más relevantes para la intención de estos Apuntes.

Se reconocen 2 grandes tipos de Errores: el aleatorio y el sistemático. El aleatorio incluye a todos los errores involuntarios que no responden a ninguna regla o método conocido (por ejemplo, por desconcentración o incluso "chubascos"); el sistemático reúne aquellos errores que se ciñen a una regla, aunque sea precaria y suelen ser pronosticables (por ejemplo, medir un objeto con la misma herramienta defectuosa). Existen también los errores asociados a la naturaleza de los datos que, por ejemplo, pueden deberse a la complejidad del proceso o fenómeno observado (período de lactancia, un huracán) y también al "ánimo o formación" de quién toma los datos (técnico calificado versus técnico no calificado). Además, están los errores que dependen de nosotros mismos o de nuestro esfuerzo que, dicho sea de paso, deberían ser mínimos. En resumen, tenemos dos errores más: los naturales, propios o internos al fenómeno y los ajenos o externos a él.

En consecuencia, todos los modelos biológicos tendrán un Error Total que los caracteriza y que puede cuantificarse en porcentaje y cualificarse según de dónde y cómo aparecen. Se subentiende que a mayor Error total, menor será la Confiabilidad del modelo y menor su Calidad; y viceversa. La siguiente fórmula resume lo anterior:

Error total modelo + Confiabilidad total modelo= 100%

Ejemplo: Usando la fórmula anterior, si un Modelo tiene un Error del 10%, su Confiabilidad será del 90%, transformándolo en un modelo aceptable. Si, por el contrario, el Error fuese del 60%, la Confiabilidad desciende a un 40% y a este modelo lo llamaríamos "pésimo" o "descartable".

El Cuadro 2 puede tomarse como referencia para clasificar los modelos biológicos o técnicos según su Error total.

Cuadro N°2: Standard para categorizar modelos.

Error (%)	Confiabilidad (%)	Categoría Modelo
<5	>95	Óptimo
5<E<10	90<C<95	Excelente
10	90	Aceptable ó bueno
>10	>90	Riesgoso a pésimo

Cálculo del Error Total Medio Porcentual (ETMP)

Para calcular el ETMP recurrimos a la diferencia entre el valor real (Yr) (medido en terreno, laboratorio, bodega) que está en el Registro y el valor teórico (Yt) que nos da el modelo obtenido para igual variable. Gráficamente, esta diferencia es la distancia vertical entre las alturas de las respectivas "ordenadas" (Yr- Yt). No consideraremos en este Apuntes otras formas más finas para el cálculo de distancia entre 2 puntos del plano XY, como por ejemplo, la distancia pitagórica.

Habiendo calculado la diferencia mencionada, calculamos el porcentaje que representa ésta respecto de cada valor real del Registro. Veamos el siguiente ejemplo.

Ejemplo de Aplicación

Sea el modelo matemático Y= 6X+ 10 y su modelo biológico asociado para la floración de un frutal de carozos F= 6D+ 10. F= número de flores abiertas y D= días del mes (primavera)

Sea el siguiente Registro:

Días (D)	N° Flores (F)
5	39
10	72
15	99

Nota: Supondremos que los datos fueron bien tomados por la misma persona durante la floración del frutal. No consideraremos esta vez ni el mes ni la especie frutal, siendo para otros estudios, muy relevantes.

El siguiente cuadro básico nos permitirá calcular el Error del Modelo Biológico:

Dato real (Yr ó Fr)	Dato teórico (Yt ó Ft) (1)	(Yr-Yt)/Yr= Dif.Frac. (2)	Dif.Frac.*100 (3)	ETMP (4) (%)
39	40	1/39= 0,0256	2,56
72	70	2/72= 0,0278	2,78	2,12
99	100	1/99= 0,0101	1,01

Comentarios: 1) Se evalúa el modelo F= 6D+ 10 reemplazando el respectivo valor de la variable D, dado el valor de F en la primera columna. 2) "Dif.Frac." es la diferencia fraccionaria calculada a partir de la variable Y ó F, según sea el modelo. Entrega el Error en "tanto por uno". Nos quedamos con su valor absoluto y 4 cifras decimales. 3) Esta columna entrega los errores porcentuales de cada punto considerado en este estudio. 4) Esta columna entrega el Error Total Medio Porcentual del Modelo, que se obtiene al sumar los valores de la cuarta columna (?= 2,56+ 2,78+ 1,01= 6,35%) y dividirlos por la cantidad de filas o datos considerados (3 pares de datos). O sea: ETMP= 6,35/3= 2,12%.

El significado de este valor sería: "Por cada 100 intentos de reproducir el número de flores de este frutal en floración (en las condiciones que se hizo la investigación), nos equivocamos entre 2 y 3 veces". Cabe destacar que con las herramientas entregadas, no es posible saber con exactitud cuál es la fuente de este Error ni su naturaleza.

DIAGNÓSTICO Y PRONÓSTICO

El concepto de Diagnóstico se relaciona con "conocer el estado de las cosas ahora o tal cual están" a través de un análisis de formato conocido. Matemáticamente se asocia al concepto de Intrapolar, o sea generar datos no conocidos al interior de la región de validez del estudio (entre el día 5 y el día 15). Por ejemplo, en el caso recién visto, ¿qué sucedió el día 7 con la floración?. O sea, se pide F(7)= 52 flores abiertas.

Por su lado, Pronóstico conlleva la idea de "estimar", "adelantarse" o "predecir" eventos en un horizonte cercano, a partir de la tendencia de los datos presentes o disponibles. Se asocia al concepto matemático de Extrapolar, es decir obtener datos faltantes más allá de los bordes de validez del estudio (antes del día 5 o después del día 15). En el ejemplo anterior, ¿qué debería suceder el día 16?. O sea, debería ocurrir F(16)= 106 flores abiertas.

Observar que el valor ETMP= 2,12%, en realidad es además un error de diagnóstico, no de pronóstico.

LITERATURA RECOMENDADA

RIUS, F.; BARÓN, FJ.; SANCHEZ, E. y PARRAS, L. 1993. Bioestadística: métodos y aplicaciones. Versión digital en pdf. 322 p.

SEPULVEDA, R. 2012. Apuntes de la Cátedra de Bioestadística, semestre otoño. Universidad Tecnológica de Chile. 81 p.

SEPULVEDA, R. 2012. Apuntes de la Cátedra de Manejo Integrado, semestre primavera. Universidad Tecnológica de Chile. 92 p.

TAUCHER, E. (Ed.) 1997. Bioestadística. Comité de publicaciones científicas, Universidad de Chile. Editorial Universitaria S.A. Santiago, Chile. 310 p.

CRÉDITOS A IMÁGENES USADAS

Figura 1. http://bvs.sld.cu/revistas/mie/vol1_1_02/mie11102.htm

Figura 2. http://html.rincondelvago.com/regresion-lineal-simple.html

Autor:

Ing. Agr. Raimundo Sepúlveda V.

18 abril 2013