ESTRUCTURAS DE LAS REDES NEURONALES ARTIFICIALES
Los aspectos más característicos de las estructuras son la estructura de conexión, el tamaño de la red y la elección entre (All Class in One Network -Todas las Clases en Una Red) y OCON (One Class in One Network – Una Clase en Una Red).
ESTRUCTURAS DE CONEXIÓN
Una red neuronal está determinada por la neurona y la matriz de pesos. El comportamiento de la red depende en gran medida del comportamiento de la matriz de pesos. Hay tres tipos de capas de neuronas: la de entrada, las ocultas y la de salida. Entre dos capas de neuronas existe una red de pesos de conexión, que puede ser de los siguientes tipos: Hacia delante, hacia atrás, lateral y de retardo.
- Conexiones hacia delante: Los datos de las neuronas de una capa inferior son propagados hacia las neuronas de la capa superior por medio de las redes de conexiones hacia adelante.
- Conexiones hacia atrás: Los datos de las neuronas de una capa superior son propagados hacia las neuronas de la capa inferior por medio de las redes de conexiones hacia adelante.
- Conexiones con retardo: los elementos de retardo se incorporan en las conexiones para implementar modelos dinámicos y temporales, es decir, modelos que precisan de memoria.
TAMAÑO DE LAS REDES NEURONALES
El Tamaño de las Redes depende del Número de Capas y del Número de Neuronas Ocultas por Capa.
- Número de capas: En una Red Multicapa, hay una o más capas de neuronas ocultas entre la entrada y la salida. El número de capas se cuenta a menudo a partir del número de capas de pesos en vez de las capas de neuronas).
- Número de unidades ocultas: El Número de Unidades Ocultas está directamente relacionado con las capacidades de la red. Para que el comportamiento de la red sea correcto se tiene que determinar apropiadamente el número de neuronas de la capa oculta.
APROXIMACIONES ACON FRENTE A OCON
Normalmente, cada nodo de salida se usa para representar una clase. Si tomamos un problema de reconocimiento alfanumérico, habrá 36 clases y 36 nodos de salida. Dado un patrón de entrada en la fase de prueba, el ganador es normalmente el nodo que tiene el valor más alto a la salida.
ALL CLASS IN ONE NETWORK – ACON: Todas las clases son reconocidas dentro de una única Súper Red.
ONE CLASS IN ONE NETWORK – OCON: En algunos casos es ventajoso descomponer esta Súper Red en varias Subredes más pequeñas. La descomposición más extrema es la llamada OCON donde una Subred se dedica para una sola clase. Aunque el número de Subredes en la estructura OCON es relativamente largo, cada una de ellas tiene un tamaño menor que la red ACON.
RED ENTERA
SUBREDES VARIAS
La capacidad de clasificación de la red neuronal depende de los valores de los pesos sinápticos los cuales pueden ser preestablecidos o entrenados adaptativamente mediante mecanismos de aprendizaje. En función de la forma con la que los pesos sinápticos son entrenados, las ANNs se pueden clasificar en modelos supervisados y modelos no supervisados.
Una clase de modelos de entrenamiento no supervisado son las Redes Asociativas de Pesos Fijos que se usan para obtener patrones originales libres de ruido a partir de señales incompletas o distorsionadas. La principal característica de estas redes es que sus pesos son preestablecidos y precalculados. Adicionalmente, estas redes tienen aplicaciones limitadas ya que no se pueden adaptar a ambientes cambiantes.
Otra clase de modelos de entrenamiento no supervisado son las Redes de Aprendizaje Competitivo cuyos pesos se adaptan de acuerdo con reglas de aprendizaje no supervisadas. Estas redes pueden aprender en ausencia de un maestro. En decir, el entrenamiento de las mismas se basa únicamente en la información de los patrones de entrada.
REDES DE MEMORIA PROASOCIATIVA
Una red de memoria asociativa es matemáticamente un mapeado de un espacio de entrada sobre uno de salida. Las redes de memoria asociativa se pueden usar tanto para las aplicaciones autoasociativas como para las heteroasociativas. En las aplicaciones autoasociativas la dimensión del espacio de entrada es igual al de salida. En las aplicaciones heteroasociativas la dimensión del espacio de entrada y del espacio de salida son en general diferentes. Los valores de entrada y de salida pueden ser reales o binarios.
Una LAM es una red de una capa de propagación. La LAM se deriva de un conjunto de pares de patrones de entrada/salida {b {m}, a {m}}. Aquí la entrada es b {m} = [b1 {m}, b2 {m},…, bk {m}]t y la salida es a {m} = [a1 {m},a2 {m}, …, ak {m} ]t para m=1, 2,…., M, donde [-]t denota la transpuesta del Vector o Matriz. El objetivo de LAM es recuperar el patrón de salida basado en la información total o parcial del patrón de entrada.
La Matriz de Pesos Sinápticos W en la Memoria Asociativa Lineal se obtiene de la correlación de los pares de patrones originales: W = S a (m) b (m) t donde a y b son Vectores Reales Continuos: a Î R N y b Î R N. Las entradas de la matriz se denotan por Wij = S a i(m) bj(m) t .
Si las entradas son binarias (1/0), entonces los elementos de la matríz de pesos W, de N x K dimensiones, que se calculan como:
Donde a, b Î Ik (Vectores Binarios). Esta fórmula permite que la condición de ortogonalidad sea impuesta más apropiadamente. Para producir una salida binaria, los elementos del vector Wt se ajustan primero por sus umbrales respectivos:
Luego son procesados por alguna unidad no lineal en los nodos de salida. Si el valor ajustado es positivo entonces la salida será 1; de cualquier otro modo, será 0.
El uso de una unidad de proceso no lineal, será esencial para eliminar las perturbaciones indeseadas. Dado un Patrón de Prueba t, definimos el Vector Resultado s como el Producto Interno entre b(m) y el Patrón de Prueba t y lo escribimos como <b(m) , t >.
S = [< b (1), t >, < b (2), t>,…, < b (M), t>] donde la operación del Producto Interno para una entrada de valor real se define como:
Al vector resultado s se le hace un Procesado no Lineal llegando a un Vector de Decisión Binario V = N {s} que se espera tenga solo un elemento distinto de cero. Si este elemento se posiciona correctamente, entonces se puede realizar la Recuperación Holográfica. El patrón a recuperar es el Valor de Salida Av. constituida por la matriz formada por los vectores columna a (k).
El propósito del operador NOLINEAL N {-} es seleccionar sólo un nodo ganador y simultáneamente descartar todos los otros nodos. El propósito es suprimir el ruido llegando a la Recuperación Holográfica. Los operadores no lineales se pueden manifestar como un elemento de umbral o un circuito MAXNET.
- Redes de Hamming
Las redes de Hamming son comúnmente utilizadas cuando las entradas son de tipo binario. La red de Hamming selecciona un ganador de entre los patrones almacenados {b(m) , m=1,…, M}, que tienen la menor distancia de Hamming al vector de entrada. Para los vectores bipolares (-1/1) se puede adoptar la misma definición de producto interno introducida anteriormente. Para los valores binarios (1/0) de entrada, el producto interno se tiene que redefinir como:
Por lo tanto se tiene que:
= numero total de bits que concuerdan
– numero de bits que no concuerdan
= K – 2 (distancia de Hamming entre b (m) y t)
En donde la distancia de Hamming es el número de inconsistencias entre los bits de los dos vectores. Esto prueba que en este caso, tanto el valor del producto interno como la distancia de Hamming darán el mismo efecto.
REDES DE MEMORIA RETROASOCIATIVA
Una Red con Realimentación necesita de muchas iteraciones hasta que conseguir la recuperación del patrón final. La Red de Retroasociacion más popular es el Modelo de Hopfield el cual que tiene las siguientes características:
- Los Pesos sinápticos son prealmacenados.
- Se usan operaciones no lineales de escalonamiento en cada etapa para producir valores binarios.
- La retroalimentación tiene la función de propiciar que los estados se puedan actualizar iterativamente.
- Las iteraciones convergen hacia una solución que minimiza una función de energía de la red.
Obtención de los Pesos Sinápticos
Dados M patrones binarios (i.e., {ai (m)} tiene valores binarios 0 o 1), los pesos en el modelo de Hopfield se obtienen de la siguiente forma:
Wij = S Mm =1 (2ª i (m) – 1) (2ªj(m) – 1 ) i ¹ j
El umbral de la red se da de la siguiente forma:
k
q i = – ½ S Wij
j=1
Funciones de Energía y Convergencia
Utilizando la Función de Liapunov como concepto de Función de Energía:
E = – ½ S S Wij ai aj – S q i ai
i j i
Bajo la situación ideal de que los vectores almacenados son perfectamente ortogonales, entonces cada patrón original representa un mínimo local (o global) de la función de energía. Esto motiva que se diseñe la red para que iterativamente se pueda buscar el estado de mínimo local. La técnica del gradiente nos lleva al modelo secuencial de Hopfield. La diferencia de la función de energía antes y después de la actualización de un estado es:
D kE = E ( k+ 1 ) – E ( k)
En caso de una actualización secuencial (asíncrona), hay solo una adaptación de un bit al mismo tiempo. Sin perdida de generalidad, asumamos que sea en D ai(k) + 1)E en el bit i-esimo:
D kE = – ui( k+ 1 ) D ai ( k+ 1 ) – ½Wij
Puesto que Wii = 0:
D kE = – Ui (k + 1) D ai( k+ 1 )
Introduzcamos una versión discreta del gradiente como:
Para garantizar el descenso de la Función de Energía D ai( k+ 1 ) se debería actualizar en la dirección de descenso del gradiente:
D ai( k+ 1 ) a ui( k+ 1 )
- MODELO DE HOPFIELD SECUENCIAL (ASÍNCRONO)
- MODELO DE HOPFIELD, ALGORITMO SEQUENCIAL
Suponiendo que la entrada a la red de retroalimentación es a, que se usa como el vector de estado inicial, esto es, se fija a= a(0) = (a1(0), a2 (0), …, aN(0)]T y las iteraciones inician en k=1 hasta la convergencia. Durante la iteración k-ésima, la red realiza la actualización en orden secuencial desde i=1, i=2,…, hasta i=N se tiene que:
Cálculo del valor de red
Ui(K + 1) = S Wij aj (k) + q I
Actualización de los estados
ai (k + 1) = 1 Ui (k + 1) > 0
0 Ui (k + 1) <0
ai (k) Ui (k + 1)=0
Se repite el mismo proceso para la siguiente iteración hasta la convergencia, lo que ocurre cuando ninguno de los elementos cambia de estado durante alguna iteración.
D kE = – Ui( k+ 1 ) D ai ( k+ 1 )
La idea básica que yace en las SOFM es la incorporación a la regla de aprendizaje competitivo un cierto grado de sensibilidad con respecto al vecindario o la historia. Esto hace que el número de neuronas que no aprenden desaparezca y ayuda a que se destaquen propiedades topológica que aparezcan en el "mapeado" de caracteristicas.
Suponiendo que un vector de entrada tiene N características y se representa por un vector x en un espacio de patrones N-dimensional. La red mapea el patrón de entrada hacia un espacio de salida. Por ejemplo, el espacio de salida puede ser un array unidimensional o bidimensioanl de nodos de salida, que posee cierto orden topológico. La cuestión es cómo entrenar la red para que esa relación de orden se preserve. Kohonen propuso que las neuronas de salida interactuaran lateralmente, llegando así a los mapas de características autorganizativos.
La característica más importante del modelo es el concepto de aprendizaje en un vecindario próximo a la neurona ganadora.
Las ANNs de entrenamiento supervisado constituyen la línea fundamental de desarrollo en este campo. Algunos ejemplos bien conocidos de las primeras redes son red perceptrón, ADALINE/MADALINE, y varias redes multicapa. En el entrenamiento supervisado hay dos fases a realizar: fase de prueba y fase de entrenamiento.
La red conocida como perceptron simple es una red neuronal tipo feed-forward supervisada, sin capa oculta, constituida por un vector de "p" inputs, X=(x1, x2, …,xn)’, un vector de "n" outputs deseados, X=(y1, y2, …,yn)’, (véase ilustración). La relación entre ambos vectores, (inputs; outputs) se obtiene mediante la regla de aprendizaje, perceptron learning rule. Se demuestra que converge de forma correcta en un número finito de iteraciones (perceptron convergence theorem). Si adicionalmente las clases son linealmente separables, permite su utilización en problemas de clasificación con más de una categoría.
- Red Perceptron:
Un modelo neuronal que representa la relación lineal entre input y output es la red Adaline (adaptive linear element). Este modelo utiliza una neurona similar a la del perceptrón simple pero de respuesta lineal. Su utilización es posible siempre que los inputs sean linealmente independientes, lo cual implica, de forma unidireccional, la condición de separabilidad entre los mismos. El mecanismo que posee para su aprendizaje es la regla de Windrow-Hoff o least mean square (LMS) , que puede considerarse un caso particular de la regla de aprendizaje delta, delta learning rule. Ésta última considera como función de activación no lineal la función sigmoidea. La versión multicapa de la red Adaline se denomina Madaline y su homólogo en términos de perceptron simple son las redes multilayer feed-forward, (véase ilustración).
- Red Adaline
- Las redes Multilayer:
MODELOS SUPERVISADOS
Las redes Multilayer feed-forward (MLP) pueden considerarse unos aproximadotes funcionales universales, es decir, una red con una única capa oculta, puede aproximar hasta el nivel deseado dentro de un conjunto compacto cualquier función continua. Las redes multilayer feed-forward son entrenadas habitualmente con el algoritmo de aprendizaje denominado Back-propagation o BP, uno de los algoritmos con más importancia histórica en el desarrollo de las redes neuronales. Las redes neuronales asociadas al algoritmo Backpropagation se definen como redes back-propagation (véase ilustración ).
Los factores que influyen en el proceso de aprendizaje del algoritmo back-propagation
(BP) son, entre otros.
- Los pesos iniciales que son normalmente inicializados de forma aleatoria, pero existen otras posibilidades, como por ejemplo, donde "ki " es el número de conexiones entre inputs y neuronas en la capa oculta.
- La constante de aprendizaje, factor de gran importancia en el proceso de convergencia, tanto en lo referente a cómo afecta su valor, como cual es el mejor valor a utilizar en las aplicaciones.
- Las funciones de coste, usualmente se utiliza la función cuadrática.
- El momentum, filtrado de paso bajo (alisado) del gradiente del error.
- Técnicas de optimización utilizadas, métodos de gradiente descendente, método de Newton, método de quasi-Newton, método de dirección conjugada.
- Aprendizaje y generalización
- Número de neuronas en las capas ocultas.
Muchas aplicaciones requieren que las redes neuronales diseñadas respondan a secuencias en el tiempo de patrones, es decir, series temporales. Si utilizamos el algoritmo de aprendizaje BP, podemos convertir una red MLP en una red time-delay neural networks (TDNN) simplemente utilizando inputs o entradas con retardos. Adicionalmente existen otros tipos de redes feed-forward, agrupadas con el nombre de redes polinomiales. Ejemplos de ellas son: las redes functional-link, que son redes con una sola capa oculta en la que las entradas se procesan con un conjunto de funciones elegidas en función del problema; las redes neuronales arbóreas o TNN, que utilizan pequeñas redes MLP en cada nodo de partición para una clasificación binaria que permita extraer las características no lineales; las redes neuronales Wavelet o WNN, que son una alternativa a las redes neuronales feed-forward para aproximarse de forma arbitraria a funciones no lineales. Y por último, las redes GMDH
- Redes Neuronales Polinomiales (PoNN): Algoritmo GMDH.
Las redes neuronales polinómicas (PoNN) utilizan el algoritmo "Group Method of Data Handling" (GMDH). Las primeras investigaciones fueron a cargo de R. Shankar (1972) el cual presentó el algoritmo GMDH como un método que permitía describir de forma sucesiva un sistema complejo de relaciones a partir de simples operaciones matemáticas.
De hecho, es un buen método para solucionar problemas del estilo, identificación, predicción a corto y a largo plazo de procesos aleatorios, reconocimiento de patrones en entornos complejos, etc. La teoría matemática fue desarrollada de forma conjunta por muchos investigadores, siendo su máximo exponente A.G. Ivakhnenko, hacia los años sesenta. El contenido del algoritmo se desarrolló como vehículo para identificar relaciones no lineales entre inputs y outputs, generando una estructura óptima a partir de un proceso sucesivo de varias generaciones de descripciones parciales de los datos, mediante la incorporación de nuevas capas. En cada capa se inicia con un número máximo de neuronas (definido por combinatoria), de forma que, mediante un proceso de selección se determina el número de neuronas más idóneo en cada capa y así el proceso se diferencia claramente del back-propagation en donde todas las capas participan simultáneamente en el proceso de aprendizaje.
Los aspectos más importantes del proceso histórico son los siguientes:
- Se caracterizó por aplicaciones orientadas a establecer criterios de regularidad para solucionar problemas de identificación, predicción a corto plazo, reconocimiento de patrones, pero no se investigó la robustez frente al ruido de los datos (1968-1971).
- Se solucionó el problema de la modelización con datos incompletos o con ruido
(1972-1975).
- Fue investigado el grado de convergencia del algoritmo GMDH (1976-1979).
- Se obtuvieron importantes resultados teóricos, proponiendo modelos no físicos para predicciones a largo plazo, modelos en dos niveles, etc, (1980-1988).
- Aparición de nuevos algoritmos para la modelización no paramétrica, como por ejemplo, "Twice-Multilayered Neural Nets" (TMNN) (1988 hasta la actualidad).
Respecto a las aplicaciones, véase tabla, son cada vez más numerosas y relacionadas con diversos campos científicos
Tabla: Áreas de aplicación de los modelos GMDH.
El primer modelo neuronal diseñado fue "Ivakhnenko Polynomial" o "Kolmogorov-Gabor Polynomial", con una topología formada por dos inputs y un output. Dicha expresión es el resultado de una combinación cuadrática de los inputs generando un total de 6 ponderaciones, cuya expresión del output es, en este caso,
Una topología más completa incorpora capas ocultas, donde el output puede ser expresado como un polinomio de grado 2(k −1), siendo "k" el número total de capas en el modelo neuronal.
El proceso de estimación de los parámetros posee tres fases (véase ilustración)
La primera de ellas consiste en agrupar por parejas todas las variables independientes de forma que,
así con las variables anteriores se crean ecuaciones de regresión,
Cada término de regresión se verifica con la muestra de datos de entrenamiento y de test, pero sólo las mejores variables se mantienen utilizando la muestra de test
Las variables nuevas se pueden considerar versiones mejoradas de las primeras variables generadas. Así por ejemplo, para un caso de 3 variables de entrada o inputs obtenemos los siguientes modelos
En el segundo paso de la optimización, véase ilustración 2.2.5.6., las variables originales " i x " se substituyen por las variables nuevas, " i z ", que son las que mejor describenla variable dependiente, "y".
Para cada combinación de las variables originales , la raíz del error cuadrático medio se utiliza para calcular el criterio de regularidad (CR) como una medida de bondad del ajuste (mediante los datos de la base de test). Todas las variables se mantienen como nuevos regresores, donde "R" se especifica a priori y la expresión de " 2j r "es,
En la última fase, la bondad del modelo permite determinar la necesidad de más iteraciones. El valor de más pequeño obtenido se compara con el generado en la última iteración, si no existe mejora el proceso ha terminado, (véase ilustraciones).
Al final del proceso anterior, se posee un modelo con los regresores que se crearon como una síntesis de diversas variables de generaciones anteriores. Estas variables pueden ser expresadas de manera recursiva en términos de las variables originales149. Como podemos observar, es un modelo que no está completamente interconectado, similar a un método autoorganizativo inductivo y con la capacidad de solucionar problemas complejos, (véase ilustración.).
Especialmente la última fase descrita es problemática. El criterio de regularidad (CR) descrito anteriormente es sensible a los datos con fuerte componente aleatoria, por esta razón se suelen utilizar otros criterios, como por ejemplo, el criterio no sesgado o el criterio combinado.
Para el primero de ellos, se subdividen los datos disponibles en dos muestras "A" y
"B", donde para cada una de ellas, se aplica de manera independiente el algoritmo, siendo su expresión, la siguiente,
donde, la variable " ij z " solo permanecerá en la próxima iteración si u siendo "U" un umbral predefinido. Los resultados empíricos no han sido muy buenos para este primer caso.
En segundo lugar, el criterio combinado, intenta solventar los problemas del primero, combinando los dos con la siguiente expresión,
donde, la variable " ij z " solo permanecerá en la próxima iteración si c C j 2 , siendo "C" un umbral predefinido
Los modelos neuronales polinomiales (PoNN) poseen una diferencia importante
respecto a los modelos donde las neuronas están previamente definidas y es que, sus unidades de procesamiento poseen un papel activo, debido a que los algoritmos GMDH se ejecutan dentro de las propias unidades, representando una nueva variable, que es generada mediante la selección independiente de las entradas relevantes necesarias para encontrar la estructura óptima.
Jorge Antonio Delgado Palomino
Ingeniero Industrial
Universidad Nacional de San Agustín
Arequipa – Perú
Página anterior | Volver al principio del trabajo | Página siguiente |