Una introducción al aprendizaje estadístico

Partes: 1, 2

RESUMEN

Los métodos estadísticos de aprendizaje van desde el simple cálculo de medias hasta la construcción de modelos complejos como las redes bayesianas o las redes neuronales. Tienen aplicación en Informática, ingeniería, neurobiología, psicología, física…

Los métodos de aprendizaje bayesiano formulan el aprendizaje como una forma de inferencia probabilística, usando las observaciones para actualizar una situación previa sobre las hipótesis, este enfoque aunque es efectivo se vuelve intratable para espacios de hipótesis complejos.

El aprendizaje estadístico es un área de investigación muy activa. Se han hecho enormes avances tanto en la teoría como en la práctica, hasta el punto que es posible aprender casi cualquier modelo para el cual sea posible inferencia aproximada o exacta.

SUMMARY

The statistical methods of learning go from the simple calculation of averages up to the construction of complex models as the nets Bayesians or the nets neuronals. They have application in Computer science, engineering, neurobiology, physical and psychology …

The methods of learning Bayesian formulate the learning as a form of inference probabilistic, using the observations to update a previous situation on the hypotheses, this approach though it is effective becomes unnameable for complex spaces of hypothesis.

The statistical learning is an area of very active investigation. Enormous advances have been done both in the theory and in the practice, up to the point that is possible to learn almost any model for which should be a possible approximate or exact inference.

1. Aprendizaje Computacional

El aprendizaje es una habilidad de la que disponen gran parte de los sistemas naturales para adaptarse al entorno en el que viven. Es por ello una propiedad interesante de emular de manera artificial, ya que muchos problemas de ingeniería requieren para su correcto funcionamiento algún tipo de adaptación al entorno en el que operan. Definir de manera única y precisa el término "aprendizaje" resulta complicado ya que se puede abordar desde diferentes puntos de vista. A continuación mostramos algunas definiciones posibles que ponen de manifiesto este hecho:

A. "Un proceso por el cual los parámetros libres del sistema se adaptan a través de un proceso continuo de estimulación a partir del entorno en el que el sistema está inmerso"

[Ambito: Inteligencia artificial]

B. "Aprender significa poder inferir la relación entre X e Y del conjunto de entrenamiento D"

[Ambito: Inteligencia artificial]

En el contexto de los sistemas artificiales, el aprendizaje, también denominado aprendizaje computacional, se puede entender como:

Un proceso en el que un aprendiz produce una función de aplicación a través de la información de entrenamiento extraída de algún entorno.

Es por lo tanto un fenómeno que sucede a lo largo de un tiempo determinado que puede corresponder a una cierta etapa dentro de la vida del sistema artificial, o por el contrario se puede extender a lo largo de toda la vida de dicho sistema.

Durante este tiempo, el aprendiz (learner) busca en el espacio de todas las posibles soluciones que es capaz de construir1, una solución óptima en relación con alguna medida de costo de la que dispone utilizando para ello recursos computacionales limitados. Es decir, el aprendiz tiene:

1. Un tiempo de búsqueda limitado. Para encontrar una solución el aprendiz debe utilizar un tiempo de CPU que no exceda un tiempo máximo asignado al aprendizaje.

2. Un espacio de búsqueda, o espacio de hipótesis, limitado. Puesto que la solución se debe buscar en un tiempo finito, el espacio de hipótesis debe ser forzosamente restringido para que el aprendiz pueda encontrar una solución antes del tiempo máximo que se ha establecido.

3. Una información limitada acerca del entorno. En la práctica es habitual disponer de escasa información acerca del entorno sobre el que queremos definir una función, ya que p.e no podemos modelarlo analíticamente de forma precisa. Por ello, se deberá buscar una solución acorde con la información disponible en el momento del aprendizaje pero compatible además con aquella información que se pueda extraer del entorno en el futuro.

La búsqueda puede ser ciega o guiada. En el primer caso, no se dispone de ninguna información acerca de en qué sub-espacio puede residir la solución. En cambio, en la búsqueda guiada, el aprendiz si dispone de información concreta de en qué región del espacio de hipótesis ha de buscar la solución. Esta guía permite así restringir la búsqueda a un subespacio, pudiendo resultar útil por dos motivos diferentes:

Puede eliminar tiempo de aprendizaje ya que se busca en un espacio menor
Puede hacer posible que la solución obtenida sea más fiable que la resultante de buscar en un subespacio mayor puesto que, dada una información fija acerca del entorno, el aprendiz puede (en general) dar una mejor solución a medida que el espacio de hipótesis es menor.

Existen diversas formas de guiar al aprendiz en un espacio de hipótesis. La primera consistiría en reducir la complejidad del problema a aprender ya que a medida que el problema sea más simple se deberá buscar en un espacio de hipótesis menor. Una segunda posibilidad sería utilizar conocimiento a priori del problema limitando así la búsqueda en aquellos lugares donde se presupone que la solución puede residir.

1.1. Criterios para evaluar un sistema aprendizaje.

Los criterios que con mayor frecuencia se utilizan a la hora de evaluar un sistema de aprendizaje son dos:

la precisión predictiva o generalización
la comprensibilidad de sus modelos aprendidos

1.1.1. Generalización.

El objetivo de un sistema que aprende es extraer un modelo representativo a partir del conocimiento disponible de un proceso computacional. Un modelo representativo ha de poder predecir nuevos fenómenos del proceso, y por lo tanto ha de ser capaz de generalizar. Así, la capacidad de generalización de estos sistemas nos da cuenta de lo bien que el modelo obtenido por el aprendiz (en nuestro caso la red neuronal con sus parámetros ajustados) responde a estímulos que el sistema no ha visto a la hora de construir dicho modelo.

1.1.2. Comprensibilidad.

Si los sistemas de aprendizaje inducen un modelo de un proceso, es deseable que éste sea comprensible, es decir, que sea fácilmente inspeccionado y entendido. Existen diversas razones para ello. Podemos estar interesados en validar el modelo inducido. O bien podemos estar interesados en entender mejor los datos y descubrir las principales características y relaciones entre ellos. O bien podemos estar interesados en modificar ligeramente el modelo para mejorar así la capacidad de generalización. Para cualquiera de estos propósitos se hace necesario poder analizar el modelo construido.

Partes: 1, 2

Página siguiente