Descargar

Una introducción al aprendizaje estadístico (página 2)


Partes: 1, 2

2. Aprendizaje estadístico

Como hemos visto un sistema con aprendizaje debe, a partir de un conjunto de información acerca de un proceso computacional, construir un modelo que permita predecir nuevos fenómenos asociados a él. Debe por lo tanto, generar un modelo con capacidad de generalizar. Se hace necesario entonces que el aprendizaje efectúe algún tipo de inducción a partir de la información disponible. Para poder inducir se precisa de un conjunto de medidas o ejemplos asociado al proceso que se quiere modelar. Este tipo de aprendizaje, denominado aprendizaje inductivo, se convierte de hecho en un aprendizaje con ejemplos que es en el fondo un problema (especialmente difícil) de aproximación de una función de la que se conoce únicamente un conjunto de puntos. La complejidad de dicho problema es especialmente notoria si tenemos presente que:

  • El número de variables asociado al espacio de entrada de la función a aproximar es elevado. Puesto que los procesos a modelar por estos sistemas suelen ser altamente complejos ya que son difíciles de caracterizar, es habitual que dependan de muchas variables, máxime al ser estos extraídos de entornos reales.
  • Las muestras disponibles suelen ser escasas, estar dispersas y tener asociadas una cierta incertidumbre.

Extraer muestras de un proceso real puede ser costoso por lo que en general no se dispone de un número ilimitado de muestras. De esta manera, la información disponible para aproximar es limitada. Además, puesto que el número de variables de entrada suele ser elevado, las muestras tienden a estar muy alejadas entre sí en el espacio de entrada. Así la correcta reconstrucción de la función se hace más difícil. Por último, las muestras pueden llevar consigo de forma inherente una cierta incertidumbre (p.e. fluctuación, ruido). En consecuencia, no resulta útil aproximar de forma precisa los puntos disponibles (p.e. interpolar). Esta incertidumbre asociada a las muestras puede deberse a diversos motivos:

  • Debido a la imprecisión de los aparatos de medida utilizados a la hora de extraer muestras del proceso, puede existir ruido en las medidas.
  • La información de que dispone es incompleta (p.e. en algunas muestras faltan el valor de algunas las variables implicadas).
  • El proceso que analizamos es no-determinístico.

Por lo tanto, el aprendiz debe reconstruir una función que suele operar en espacios de alta dimensión a partir de un conjunto limitado de ejemplos dispersos y con ruido. Para poder tratar con la incertidumbre existente en el proceso de reconstrucción se hace necesario que el aprendiz infiera o estime a partir del conjunto de muestras (o conjunto de entrenamiento) una estructura, modelo o función de tipo estadístico que defina al proceso computacional del que proceden los datos. Además la definición del problema del aprendizaje en términos estadísticos nos va a permitir cuantificar claramente aspectos como la capacidad de generalización del sistema con aprendizaje. Este modelo estadístico inferido del proceso a partir de ejemplos puede servir tanto para realizar una tarea de interés (ingeniería) como para conseguir un mejor entendimiento de los datos disponibles y, por extensión, del proceso al que representan.

Existen dos maneras fundamentales de aprender con ejemplos. En la primera, conocida con el nombre de aprendizaje no supervisado o auto-organizado, el objetivo pasa por descubrir las propiedades estadísticas de un vector aleatorio X asociado al proceso computacional a modelar. Para ello únicamente se dispone de un conjunto de muestras procedentes de variables de entrada del proceso, llamado D={xi, i=0…N-1} siendo xi una muestra aleatoria extraída de un vector aleatorio X de dimensión p que toma valores reales que opera sobre un espacio de entrada.

En cambio, el segundo tipo de aprendizaje, conocido con el nombre de aprendizaje supervisado, tiene por finalidad revelar las relaciones existentes entre dos vectores aleatorios X e Y que, al igual que en el caso anterior, forman parte del proceso computacional a modelar. En este aprendizaje se dispone de un conjunto de pares de muestras procedentes de dichas variables de entrada y salida de dicho proceso, denominado D={(xi, yi), i=0…N-1} con xi~X Î Ʀp y yi~YÎ Ʀm

De hecho, estos dos tipos de aprendizaje suelen ser complementarios puesto que es posible aprender de forma más fácil las relaciones entre X e Y si previamente tenemos información acerca de la estructura estadística de X. Por ello es habitual encontrar en la práctica sistemas con aprendizaje híbrido en los que el aprendizaje no supervisado facilita el aprendizaje de la parte supervisada, o si se quiere, el aprendizaje no supervisado guía al supervisado en la búsqueda de la solución. A continuación daremos un breve repaso a estos dos paradigmas de aprendizaje desde un punto de vista estadístico. Veremos también de qué elementos se compone un aprendizaje estadístico y cuales son las limitaciones de tipo práctico existentes en este tipo de aprendizaje.

2.1. Aprendizaje no supervisado.

En el aprendizaje estadístico no supervisado el objetivo final sería estimar de forma precisa la función densidad de probabilidad del vector aleatorio X, denominada fX(x), ya que representa la estructura estadística de X, el cual está asociado al proceso computacional que queremos modelar. De esta manera obtenemos toda la información de acerca de X en términos estadísticos.

Por ejemplo, una información de la que disponemos a partir de esta información es la de los grupos naturales (clusters) existentes, ya que se corresponden con regiones en las que fx(x) tiene máximos locales. Así en el caso de disponer de un conjunto de imágenes sería posible a partir del aprendizaje no supervisado utilizar dicha información para poder almacenar estas imágenes de forma comprimida.

En la práctica la estimación de Px(x) es demasiado complicada debido a los escasos recursos disponibles. Así el aprendizaje no supervisado suele buscar una formulación del problema más directa. Esta se basa en construir una función que aproxime al vector aleatorio X. Buscamos por lo tanto construir una función de x a partir de un conjunto de entrenamiento D={xi,i=0…N-1}, denominada F(x; D) que sea un estimador de X tal que:

X» X’ = F(x;D)

2.2. Aprendizaje supervisado.

Dados dos vectores aleatorios X e Y, es decir un conjunto de variables procedentes del espacio de entrada y salida del proceso a modelar, el objetivo del aprendizaje supervisado es descubrir la relación existente entre estos dos vectores. Por ejemplo, podemos necesitar relacionar la evolución de la bolsa a escala mundial (Y) en función de ciertas variables macroeconómicas (X).

Puesto que interesa caracterizar Y en relación con X y únicamente se dispone de un número finito de muestras D={(xi, yi), i=0…N-1}, deberemos utilizar D para construir una estimación de Y a partir de una función del vector aleatorio X, es decir,

Y » Y’ = F(x;D)

En este tipo de aprendizaje distinguiremos un caso general (regresión) y otro particular (clasificación) cuyas peculiaridades hacen de él un caso de estudio aparte.

2.3. Componentes de un sistema de aprendizaje estadístico.

A partir de un conjunto de entrenamiento D de tamaño N y de una función parametrizable F(x; W) (p.e. una red neuronal) siendo W el conjunto de parámetros asociados a la función (p.e. los pesos de la red neuronal), el problema del aprendizaje estadístico pasa por calcular W de manera que se consiga un objetivo estadístico, p.e. minimizar una función de costo estadística. Para ello se utilizará algún método de optimización. El sistema de ecuaciones obtenido al aplicar el método de optimización sobre la función de costo estadístico es lo que se conoce como algoritmo de entrenamiento. Dicho algoritmo es en realidad un sistema dinámico, es decir un conjunto de ecuaciones que evolucionan en el tiempo. Este sistema dinámico deberá converger hacia el mínimo de la función de costo. No obstante, será habitual definir un criterio de parada del algoritmo que permita parar la ejecución del mismo antes de que converja.

EJEMPLO

Ahora se va a considerar un ejemplo muy simple. Los caramelos sorpresa son de dos sabores: CEREZA y LIMA. El fabricante de los caramelos tiene un sentido del humor muy peculiar, y envuelve los caramelos en un envoltorio opaco en el que no se indica el sabor. Los caramelos se introducen en grandes bolsas que son de cinco tipos, otra vez indistinguibles desde afuera:

h1: 100% cereza

h2: 75% cereza + 25% lima

h3: 50% cereza + 50% lima

h4: 25% cereza + 75% lima

h5: 100% lima

Dada una nueva bolsa, la variable aleatoria H (para las hipótesis) denota el tipo de bolsa, así que puede tomar valores desde h1 hasta h5. Por supuesto, H no es directamente observable. Cuando se abren y se inspeccionan los caramelos, se revelan los datos D1, D2,…, Dn, donde cada Di es una variable aleatoria con valores posibles de CEREZA y LIMA. La tarea básica a la que se enfrenta el agente es predecir el sabor del siguiente caramelo. A pesar de que aparentemente parece trivial, este escenario sirve para introducir muchos de los aspectos principales. Realmente, el agente necesita inferir una teoría de su mundo, aunque sea muy simple.

El aprendizaje bayesiano simplemente calcula la probabilidad de cada hipótesis dados los datos, y realiza predicciones sobre estas bases. Es decir, se realizan las predicciones utilizando todas las hipótesis, ponderadas por sus probabilidades, y no utilizando únicamente la "mejor" hipótesis. De esta forma, el aprendizaje se reduce a inferencia probabilística. Si D representa todos los datos, y d el valor observado; la probabilidad de cada hipótesis se obtiene aplicando la regla de Bayes:

(2.1)

Ahora suponga que queremos hacer una predicción sobre una cantidad desconocida X. tenemos

(2.2)

Donde se ha asumido que cada hipótesis determina una distribución de probabilidades de X. esta ecuación muestra que las predicciones son el resultado de ponderar las predicciones de las hipótesis individuales. Las hipótesis son en si mismas intermediarios entre los datos crudos y las predicciones. Las cantidades clave en el enfoque bayesiano son las hipótesis a priori. P(hi) y la verosimilitud de los datos dada cada una de las hipótesis, P(d/hi).

En este ejemplo asumiremos, como información proporcionada por el fabricante, que la distribución a priori sobre h1,…,h5 viene dada por [0.1 , 0.2 , 0.4 , 0.2 , 0.1]. La verosimilitud de los datos se calcula asumiendo que las observaciones son independientes e idénticamente distribuidas (iid) así que

(2.3)

La figura (1) muestra como cambian las probabilidades a posteriori de las cinco hipótesis a medida que se van observando los 10 caramelos de lima. Nótese que las probabilidades comienzan con sus valores a priori, por lo que h3 es inicialmente más probable que las demás, incluso después de que se desenvuelva el primer caramelo. Después de desenvolver dos caramelos de lima, h4 es la más probable; después de tres o más, h5 (la terrorífica bolsa con todos los caramelos de lima) es la más probable. Después de 10, estamos bastante seguros de nuestro destino.

El ejemplo muestra que, a la larga, la verdadera hipótesis domina la predicción bayesiana. Esto es característico del aprendizaje bayesiano. Para cualquier a priori fija que no excluya la hipótesis verdadera, la probabilidad a posteriori de cualquier hipótesis falsa finalmente desaparecerá, simplemente porque la probabilidad de generar datos no característicos de forma indefinida es cada vez más pequeña. Más importante, la predicción bayesiana es óptima, tanto si el conjunto de datos es pequeño, como si es grande. Dada la hipótesis a priori, cualquier otra predicción será correcta con menos frecuencia.

Por supuesto, la optimalidad del aprendizaje bayesiano tiene un precio. En los problemas reales de aprendizaje, el espacio de hipótesis es normalmente muy grande. En algunos casos, el cálculo del sumatorio de la ecuación (2.2) (o la integración en caso continuo) es tratable, pero en la mayoría de los casos debemos recurrir a métodos aproximados o simplificados.

Figura No. 1 Evolución de las probabilidades condicionales de h1,h2,h3,h4 y h5

P(h5│d)

Probabilidades para el momento en el que se destapa el primer caramelo

= 0

= 0.1

= 0.4

= 0.3

= 0.2

Probabilidades para el momento en el que se destapa el segundo caramelo

= 0

= 0.038

= 0.307

= 0.346

= 0.307

Probabilidades para el momento en el que se destapa el tercer caramelo

= 0

= 0.0131

= 0.210

= 0.355

= 0.421

Como se observa en las ecuaciones anteriores; a medida que se van destapando caramelos las ecuaciones se van actualizando con las nuevas probabilidades, cosa que hace más exactas las probabilidades a posteriori.

A continuación se muestra la tabla para 10 iteraciones, es decir para los diez primeros caramelos destapados.

h1

h2

h3

h4

h5

A priori

0,1

0,2

0,4

0,2

0,1

1

0

0,1

0,4

0,3

0,2

2

0

0,03846

0,30769

0,34615

0,30769

3

0

0,01316

0,21053

0,35526

0,42105

4

0

0,00413

0,13223

0,33471

0,52893

5

0

0,00122

0,07805

0,29634

0,62439

6

0

0,00034

0,04405

0,25086

0,70475

7

0

9,4E-05

0,02407

0,20562

0,77021

8

0

2,5E-05

0,01285

0,16468

0,82245

9

0

6,6E-06

0,00675

0,12968

0,86357

10

0

1,7E-06

0,0035

0,10087

0,89563

BIBLIOGRAFÍA:

Russell Stuart J. Inteligencia artificial un enfoque moderno.2a edición 2004

Aprendizaje estadístico:

Redes Neuronales y Maquinas de Soporte Vectorial: Un enfoque global:

http://www.uv.mx/anmarin/slides/180205Gonzalez.pdf

Visitar la FUKL— www.fukl.edu

 

AUTORES:

John Edwin Gallego Sandoval

Matemático Egresado de la Fundación Universitaria Konrad Lorenz

Dirigido por:

Ing. Pervys Rengifo Rengifo

Docente e Investigador de la Fundación Universitaria Konrad Lorenz en el programa de Ingeniería de Sistemas.

Bogotá, Colombia, julio de 2007.

Fundación Universitaria Konrad Lorenz-Grupo de Investigación PROMENTE-Aplicación de Máquinas de Soporte Vectorial a Problemas de Clasificación y Regresión

Partes: 1, 2
 Página anterior Volver al principio del trabajoPágina siguiente