Descargar

Razonamiento aproximado. Fundamentos teóricos de la inteligencia artificial (página 2)

Enviado por Pablo Turmero


Partes: 1, 2
edu.red

9 Redes bayesianas A principio de los años 80, Judea Pearl retoma el modelo probabilístico creando las redes bayesianas Este acontecimiento cambia completamente el escenario Modelo probabilista inspirado en la causalidad El modelo probabilístico tiene asociado un modelo gráfico, cuyos nodos representan variables y cuyos arcos representan mecanismos causales Extraordinario desarrollo experimentado por las redes bayesianas en las dos últimas décadas Se han construido modelos de diagnóstico y algoritmos eficientes para problemas con miles de variables Las universidades más importantes y las empresas punteras de informática tienen grupos de investigación dedicados a este tema

edu.red

10 Características principales de las redes bayesianas

La incertidumbre se representa basándose en teoría de la probabilidad La información se estructura en variables y relaciones de influencia causal entre ellas Relaciones de independencia condicional Parámetros: probabilidades condicionadas de cada variable dados sus padres Inferencias de tipo abductivo y predictivo

edu.red

11 Ejemplos de empresas que utilizan redes bayesianas: Microsoft (Windows 95/98, Office 97/2000) Digital, Hewlett Packard, diagnóstico de problemas de impresión IBM, Intel, Siemens Nokia

edu.red

12 Lógica difusa Introducción Teoría de conjuntos difusos Teoría de conjuntos clásica (conjuntos nítidos) Conjuntos Difusos Funciones de pertenencia Etiquetas lingüísticas Operaciones elementales con conjuntos difusos Complementario Intersección Unión Razonamiento difuso Inferencia difusa Decodificación Funcionamiento de un sistema difuso Conclusiones

edu.red

13 Necesidad de razonamiento difuso En el mundo real existe mucho conocimiento no perfecto, es decir, conocimiento vago, impreciso, incierto, ambiguo, inexacto, o probabilístico por naturaleza. El razonamiento y pensamiento humano frecuen-temente conlleva información de este tipo: inexactitud inherente de los conceptos humanos y razonamiento basado en experiencias similares, pero no idéntica Problema: Poca capacidad de expresión de la lógica clásica. Ejemplo 1. Clasificación de personas en altas o bajas Ejemplo 2. Definición del término joven

edu.red

14 Origen y éxito de los difusos El origen del interés actual por la teoría de conjuntos difusos se debe a un artículo publicado por Lofti Zadeh en 1.965. En la actualidad es un campo de investigación muy importante, tanto por sus implicaciones matemáticas o teóricas como por sus aplicaciones prácticas: Revistas (Fuzzy Sets and Systems, IEEE Transactions on Fuzzy Systems..) Congresos (FUZZ-IEEE, IPMU, EUSFLAT, ESTYLF…) Miles de aplicaciones reales: Control de sistemas: Tráfico, vehículos, compuertas en plantas hidroeléctricas, centrales térmicas, lavadoras, metros ascensores… Predicción y optimización: Predicción de terremotos, optimización de horarios… Reconocimiento de patrones y Visión por ordenador: Seguimiento de objetos con cámara, reconocimiento de escritura, reconocimiento de objetos, compensación de vibraciones en cámaras, sistemas de enfoque automático… Sistemas de información o conocimiento: Bases de datos, sistemas expertos

edu.red

15 Un poco de publicidad… Carga: 5kg Revoluciones: 1400 rpm Características energéticas: A+,A,B Multi-Display Fuzzy Logic Programas especiales: Lavado a mano, Seda, Lana Poderoso lente zoom de 4.3x, 28-120 con elementos de lentes de cristal ED Sistema de flash doble incorporado. Ajuste de Exposición Automática programada Sistema de Medición TTL: Fuzzy logic ESP, Promedio Balanceado al Centro OLYMPUS ERGONÓMICA SRL 28-120 (2995 dólares) AEG Lavamat 64600 (429 euros)

edu.red

16 Funciones de pertenencia Algunas de las funciones de pertenencia más utilizadas son: Función GAMMA (?): Función LAMBDA o triangular Función L Puede definirse simplemente como 1 menos la función GAMMA

edu.red

17 Funciones de pertenencia Función PI o trapezoidal

edu.red

18 Funciones de pertenencia Función S Función P Función Z (opuesta de la S) mZ(x) = 1- mS(x)

edu.red

19 Etiquetas lingüísticas Equivalentes a los adverbios del lenguaje natural Se utilizan para definir conjuntos difusos a partir de otros ya existentes. Por ejemplo, viejo —> MUY viejo Lo que se hace es componer la función de pertenencia con alguna otra función, de forma que la función resultante tenga la forma deseada Por ejemplo, función para el adverbio MUY —> f(y) = y2

viejo Muy viejo

edu.red

20 Etiquetas lingüísticas (Gp:) Nombre del modificador

(Gp:) Descripción del modificador

(Gp:) not

(Gp:) 1-y

(Gp:) very (muy)

(Gp:) y2

(Gp:) somewhat (algo)

(Gp:) y1/3

(Gp:) more-or-less (más o menos)

(Gp:) y1/2

(Gp:) extremely (extremadamente)

(Gp:) y3

Existe todo un catálogo de adverbios/funciones

edu.red

21 Etiquetas lingüísticas Otras operaciones usuales Concentración Intensificación contraste Dilatación Difuminación Normalización f(y) = y/Altura f(y)=yp, con p>1 f(y)=yp, con 0< p< 1

edu.red

22 Operaciones con conjuntos difusos Siendo c: [0,1] ? [0,1]. La función c debería cumplir las siguientes propiedades c1. concordancia caso nítido c(1) = 0 y c(0) = 1 c2. estrictamente decreciente ?a,b? [0,1] a>b ? c(a) < c(b) c3. involución ?a? [0,1] c(c(a)) = a Las funciones más utilizadas son: Complementario Dado un conjunto difuso A, su complemento vendrá definido por c(a) = 1 – a. Sugeno cl(a) = (1-a)/(1-la) l? [0, 1] Yager cw(a) = ( 1 – aw)1/w w? [0, ?]

edu.red

23 Operaciones con conjuntos difusos Siendo i: [0,1]x[0,1] ? [0,1]. La función i debería cumplir las siguientes propiedades: i1. concordancia caso nítido i(0,1) = i(0,0) = i (1,0) = 0; i(1,1) = 1 i2. conmutatividad i(a,b) = i(b,a) i3. asociatividad i(a,i(b,g)) = i(i(a,b),g) i4. identidad i(a,1) = a i5. monotonía si a?a’ b ? b’, entonces i(a,b) ? i(a’, b’) Intersección Dados dos conjuntos difusos A y B, su intersección vendrá definida por ([0,1],i) tiene estructura de semigrupo abeliano con elemento neutro.

Las funciones i que verifican esta propiedad se llaman normas triangulares (t-normas).

edu.red

24 Operaciones con conjuntos difusos Algunas t-normas usuales: (Gp:) t-norma del mínimo imin(a,b) = min(a,b)

(Gp:) t-norma del producto i*(a,b) = ab

(Gp:) t-norma del producto drástico

Toda t-norma verifica las siguientes desigualdades: ?a,b? [0,1] iinf(a,b) ? i(a,b) ? imin(a,b) la menor t-norma es la t-norma del producto drástico la mayor t-norma es la norma del mínimo

edu.red

25 Operaciones con conjuntos difusos Siendo u: [0,1]x[0,1] ? [0,1]. La función u debería cumplir las siguientes propiedades:

u1. concordancia con el caso nítido u(0,1)=u(1,1)=u(1,0) =1; u(0,0) = 0 u2. conmutatividad u(a,b) = u(b,a) u3. asociatividad u(a,u(b,g)) = u(u(a,b),g) u4. identidad (A ? ? = A) u(a,0) = a u5. monotonía Si a?a’ b?b’, entonces u(a,b)?u(a’, b’) Unión Dados dos conjuntos difusos A y B, su unión vendrá definida por mAuB(x) = u(mA(x), mB(x)) Además, podemos pedir que se cumpla: u6. Leyes de De Morgan u(a,b) = c(i(c(a),c(b)) i(a,b) = c(u(c(a),c(b)) Las funciones i que verifican estas seis propiedad se llaman conormas triangulares (t-conormas).

edu.red

26 Operaciones con conjuntos difusos Si consideramos como complemento la función c(u) = 1-u, las t-conormas correspondientes a las t-normas anteriores son: t-conorma del máximo umax(a,b) = max(a,b) t-norma de la suma drástica Toda t-conorma satisface las siguientes desigualdades: ?a,b?[0,1] umax(a,b) ? u(a,b) ? usup(a,b) la menor t-conorma es la t-conorma del máximo la mayor t-conorma es la t-conorma de la suma drástica

(Gp:) t-conorma de la suma u*(a,b) = a+b-ab

edu.red

27 Operaciones con conjuntos difusos Sin embargo, estas propiedades que les hemos pedido a las operaciones de unión e intersección no garantizan que se satisfagan estas otras propiedades: I1: Idempotencia (A ? A = A) i(a,a) = a I1: Distributividad (A ? (B ? C)) = … i(a,u(b,g)) = u(i(a,b),i(a,g)) U1 : Idempotencia (A ? A = A) u(a,a) = a U2 : Distributividad (A ? (B ? C)) = … u(a,i(b,g)) = i(u(a,b),u(a,g)) propiedades que sólo verifican la t-norma del mínimo junto con la t-conorma del máximo Conjuntos vacío y total: Conjunto vacío Conjunto total Sin embargo, con esta definición no se satisfacen algunos famosos principios de la lógica clásica, como por ejemplo: Principio de contradicción Principio del tercio excluso

edu.red

28 Razonamiento difuso Proposición difusa simple: Proposición que asigna un valor a una variable difusa: “Pepe es de estatura mediana”. Tiene asociado un conjunto difuso y su función de pertenencia. Proposición difusa compuesta: Agrupación de dos o más proposiciones difusas simples “la velocidad es normal” Y “el objeto está cerca” “la velocidad es alta” O “el objeto está muy cerca” “la velocidad NO es alta” Necesidad de definir operadores difusos: NO (¬p) m¬A(u) = 1 – mA(u) Y (p?q) vendrá definida por una función de pertenencia tipo intersección, por ejemplo m A?B(u,v) = min( mA(u), mB(v)) O (p?q) vendrá definida por una función de pertenencia tipo unión, por ejemplo mAUB(u,v) = max(mA(u), mB(v))

edu.red

29 Razonamiento difuso: implicaciones El siguiente paso es definir lo que es una implicación, es decir, asignar una función de pertenencia a una agrupación antecedente consecuente del tipo p?q Esto nos permitirá razonar con afirmaciones tales como: SI “la velocidad es normal” ENTONCES “la fuerza de frenado debe ser moderada” Opciones: Teórica: Dar a la implicación el mismo significado que en la lógica clásica. p?q ? ?p?q mp?q(u,v) = max(1-mA(u), mB(v)) p?q ? ~(p?(~q)) mp?q(u,v) = 1 – min[mA(u), 1-mB(v)] Práctica: Dar a la implicación el significado de relación causa-efecto: Implicación de Mamdani p?q ? A?B ? mp?q(u,v) = min( mA(u), mB(v))

edu.red

30 Decodificación Una vez llevado a cabo el proceso de razonamiento difuso, es necesario dotar al sistema de la capacidad de tomar decisiones. Así por ejemplo, el sistema debe saber qué fuerza de frenado que debemos aplicar si la velocidad es alta Para ello se utilizan las llamadas técnicas de decodificación, que transforman un conjunto difuso en un valor nítido. Las más usuales son: El valor máximo (es decir, el más posible). El centroide o centro de gravedad difuso

edu.red

31 Funcionamiento de un sistema de control basado en lógica difusa (Gp:) Reglas (Gp:) Inferencia

Codificador Decodificador (Gp:) u ?Up (Gp:) Conjuntos difusos entrada

(Gp:) v ?V (Gp:) Conjuntos difusos salida

(Gp:) Entrada nítida (Gp:) x ?Up

(Gp:) y=f(x) ?V (Gp:) Salida nítida

edu.red

32 En resumen La lógica difusa se concibió originalmente como un método mejor para manejar y almacenar información imprecisa Ha demostrado ser una excelente alternativa para sistemas de control, ya que imita a la lógica de control humana Se pede incluir en cualquier sistema, desde dispositivos pequeños a sistemas de control complejos Usa un lenguaje impreciso pero muy descriptivo para operar con datos de entrada de una forma parecida a la usa un operador humano Es robusta y no demasiado dependiente de los datos de entrada y operadores elegido Incluso las primeras versiones funcionan bastante bien, con escasa necesidad de ajustes

edu.red

33 Redes bayesianas Definición intuitiva Definición formal Teorema fundamental Algoritmos de propagación Ejemplo Herramientas Ejercicios

edu.red

34 Redes bayesianas Una red bayesiana es:

Un conjunto de nodos que representan variables o entidades del mundo real Un conjunto de enlaces que representan relaciones de influencia causal entre los nodos Una serie de parámetros (probabilidades condicionadas de cada nodo dados sus padres) que cuantifican la relación entre los nodos.

edu.red

35 P(gripe) = 0.3 P(tos/gripe) = 0.9 P(tos/no gripe) = 0.01

Tos

Gripe

Interpretación de los parámetros: (Gp:) Prevalencia

(Gp:) Sensibilidad

(Gp:) Especificidad

P(gripe) = 0.3 P(tos/gripe) = 0.9 P(no tos/no gripe) = 0.99 Ejemplo

edu.red

36 Definición formal de red bayesiana Una red bayesiana es: Un conjunto exhaustivo y excluyente de variables proposicionales, V Un conjunto E de relaciones binarias definidas sobre las variables de V Una distribución de probabilidad conjunta P definida sobre las variables de V, tales que: (V, E) es un grafo acíclico, conexo y dirigido G. (G, P) cumple las hipótesis de independencia condicional ? X?V y ? Y ? V – {X ? de(X)} P(X/pa(X), Y) = P(X/pa(X))

edu.red

37 Teorema fundamental Dada una red bayesiana, la distribución de probabilidad conjunta puede expresarse como: P(x1, …, xn) = ? P(xi /pa(xi))

edu.red

38 Algoritmos de propagación Los algoritmos de propagación en redes bayesianas permiten hacer inferencias: De tipo abductivo: dado que el alumno ha respondido a ciertas preguntas, ¿cuál es la probabilidad de que conozca los conceptos? De tipo predictivo: dado que el alumno conoce ciertos conceptos, ¿cuál es la probabilidad de que responda correctamente a la pregunta? Cuando un nodo (grupo de nodos) se instancia, la información se propaga por la red de forma que se calculan las probabilidades a posteriori de cada uno de los nodos dado el valor que haya tomado el nodo (grupo de nodos) instanciado.

edu.red

39

Ejemplo: la red Asia X D T A L B S E Asia Tuberculosis Cáncer pulmón Fumador Bronquitis Rayos X Disnea Enfermedad (Gp:) Explaining away

Abducción Predicción

edu.red

40 Algoritmos de propagación Algoritmos exactos Estructuras especiales: árboles, poliárboles Caso general: Algoritmos de condicionamiento Algoritmos de agrupamiento Algoritmos aproximados

edu.red

41 Herramientas Hugin http://www.hugin.dk Javabayes http://www-2.cs.cmu.edu/~javabayes/Home/ Algunas más: http://www.ia.uned.es/~fjdiez/bayes/software.html

edu.red

42 Ingeniería del conocimiento con redes bayesianas Modelado con redes bayesianas: Nodos (variables), relaciones de influencia causal Parámetros (probabilidad condicionada de cada nodo dados sus padres) Mecanismos de propagación (herramientas)

Mucho más en:

http://www.lcc.uma.es/eva/doc/materiales/microsoft.pdf

edu.red

43 Variables y relaciones En general, las redes bayesianas se han usado en: Problemas de diagnóstico: diagnóstico de averías (HP), diagnóstico médico, diagnóstico de problemas, diagnóstico de intenciones y objetivos (clip de Microsoft), etc. Problemas de clasificación Por tanto lo primero será identificar el tipo de problema que queremos resolver

edu.red

44 Problemas de diagnóstico Preguntas relevantes: ¿Qué observaciones se han efectuado? ¿Qué posibles causas hay para explicar dichas observaciones? ¿Hay otros indicios que apoyen o ayuden a descartar alguna de esas posibles causas? ¿Cómo son las relaciones entre los nodos? ¿Qué tipo de relaciones existe entre las variables?.

edu.red

45 Ejemplo 1: Luisito está enfermo Los padres de Luisito, que acaba de cumplir un año, deciden llevarlo al pediatra porque vomita con cierta frecuencia. Con el pediatra sostienen la siguiente conversación: Pediatra -. Denme toda la información que consideren que puede ser relevante. Mamá-. El otro día Luisito estaba resfriado. Vomitó el biberón de la noche, creo que por culpa de los mocos, ya que había muchos en el vómito. Otras veces parece que vomita por una pequeña indigestión. Papá-. Además creo que debe saber que mi hermano es celíaco (Aclaración: la celiaquía es una intolerancia al gluten, que poco a poco hace que se destruya el vello intestinal. Los vómitos son uno de sus síntomas más relevantes. Se cree que tiene cierta componente hereditaria). Pediatra-. ¿Y la dieta de Luisito incluye gluten? Ambos-. Sí, desde hace unos meses.

edu.red

46 Ejemplo 2: ¿Se han copiado? Cuando el profesor de Métodos Computacionales de la Física Cuántica corrige los exámenes de Junio, encuentra que los resultados del mismo son muchísimo mejores que en convocatorias anteriores, y comienza a pensar en la posibilidad de que los alumnos hayan copiado, aunque también puede ocurrir que los alumnos de ese curso sean excepcionalmente buenos. Para averiguar lo que ha ocurrido, intenta también tener en cuenta otras informaciones que tiene disponibles, y que son las siguientes: Un par de días antes del examen dejó su despacho abierto por descuido. El enunciado del examen estaba ese día encima de la mesa. Un amplio grupo de alumnos ha cometido exactamente el mismo fallo en uno de los problemas. Los profesores que le han dado clase a ese grupo en años anteriores consideran que el grupo es bueno, pero no excepcional.

edu.red

47 Problemas de clasificación Preguntas relevantes: ¿Qué objetos son los que se desea clasificar? ¿Cuáles son las diferentes categorías? ¿Puede un objeto pertenecer a más de una categoría? ¿Están contempladas en el problema todas las categorías posibles? Si el conjunto de posibles categorías es exhaustivo y excluyente -> un único nodo En otro caso ->un nodo por categoría ¿Qué rasgos o indicios se utilizan para realizar la clasificación?

edu.red

48 Ejemplo 1: El planeta ZYX En el planeta Zyx se pueden encontrar varias clases de animales, llamemos a estas clases Wurros, Hobexas y Wackas. Todos tienen un tamaño muy pequeño, y sus pieles son o bien escamosas o bien están cubiertas de suave pelo. Además, una observación atenta ha permitido deducir lo siguiente: Todos los Wurros tienen 5 ó 6 patas. Su color es rojizo, y tienen la piel peluda y suave. El número de patas de las Hobexas es un entero que varía uniformemente entre 4 y 6, ambos inclusive. Su piel es escamosa. En cuanto a las Wackas, tienen 4 ó 5 patas, y ofrecen a la vista una tonalidad casi siempre azulada, pero a veces (20% de los casos) rojiza. Los animales que tienen un número impar de patas cojean siempre. Los animales que tienen un número par de patas cojean sólo cuando tienen alguna anomalía (malformación congénita, heridas, etc.), lo cual ocurre en el 10% de los casos para los animales de 4 patas, y en el 20% para los de seis.

edu.red

49 Parámetros: modelos canónicos Puerta OR

Puerta AND Faringitis Otitis Fiebre Alergia Olivo Estornudo

Partes: 1, 2
 Página anterior Volver al principio del trabajoPágina siguiente