Métodos predictivos y supervisados de Minería de Datos (página 2)

Partes: 1, 2

11 Perceptron Learning (Gradient Descent). El algoritmo Gradient Descent ajusta así: 1. Se asigna a los wi,j un valor pequeño aleatorio entre 0 y 1. 2. Hasta que la condición de terminación se cumple, hacer: 3. Para todos los p ejemplos (xk,yk)t se calcula la matriz de error (etk=ytk-y’tk) 4. Se recalculan los pesos siguiendo Least-Mean Squares (LMS), con un learning rate (r):

5. t:= t+1, ir a 2. r es un valor generalmente pequeño (0.05) y se determina heurísticamente. A mayor r converge más rápido pero puede perderse en valles locales. Aprendizaje Supervisado

edu.red

12 Perceptron Learning: El algoritmo Perceptron (versión incremental o aproximación estocástica al gradient descent): 1. Se asignan aleatoriamente los wi,j entre 0 y 1 (o se pone .5) 2. t= 1 (se toma el primer ejemplo). 3. Para el ejemplo (x,y)t se calcula el vector error (et=yt-y’t) 4. Se recalculan los pesos siguiendo Least-Mean Squares (LMS), también llamada regla delta, Adaline o Widrow-Hoff:

5. t:= t+1, ir a 2 hasta que no queden ejemplos o el error medio se ha reducido a un valor deseado. En general, esta versión es más eficiente que la anterior y evita algunos mínimos locales. Aprendizaje Supervisado

edu.red

13 Multilayer Perceptron (redes neuronales artificiales, ANN). El perceptron de una capa no es capaz de aprender las funciones más sencillas. Se añaden capas internas, se introducen diferentes funciones de activación e incluso recientemente se introducen bucles y retardos.

Aprendizaje Supervisado Salidas Entradas h1,1 y3 y2 y1 x1 x2 x3 h1,2 h1,3 h1,4 h1,5 x4 Hidden Layer

edu.red

14 Multilayer Perceptron (redes neuronales artificiales, ANN). En el caso más sencillo, con la función de activación sgn, el número de unidades internas k define exactamente el número de boundaries que la función global puede calcular por cada salida.

El valor de k se suele determinar heurísticamente.

Pero, ¿cómo entrenar este tipo de red?

Aprendizaje Supervisado PARTICIÓN POLIGONAL POSIBLE CON 4 UNIDADES INTERNAS

edu.red

15 Multilayer Perceptron (redes neuronales artificiales, ANN). Para poder extender el gradient descent necesitamos una función de activación continua: La más usual es la función sigmoidal:

Esto permite particiones no lineales:

Aprendizaje Supervisado PARTICIÓN NO LINEAL MÚLTIPLE POSIBLE CON 4 UNIDADES INTERNAS

edu.red

16 Algoritmo Backpropagation (Rumelhart et al. 1986) Inicializar todos los pesos a valores pequeños aleatorios (entre -.05 y .05) Hasta que se cumpla la condición de terminación hacer: Para cada ejemplo (x,y): Se calculan las salidas de todas las unidades ou Se calcula el error en cada salida k:

Para cada unidad oculta h se calcula su error:

Se actualizan los pesos:

Aprendizaje Supervisado Se necesitan muchos ejemplos: al menos 10 ejemplos por cada peso y output a aprender. P.ej, una red con 50 entradas y 10 nodos internos, necesita 10.220 ejemplos por lo menos.

edu.red

17 Variaciones: Si hay más de una capa oculta:

Si la red es no recursiva, pero no está organizada en capas (se trata de cualquier árbol acíclico), también se puede:

Existe una variante que va añadiendo capas según se necesitan, denominado cascade-correlation (Fahlman and Lebiere 1990), resolviendo el problema de determinar el número de unidades ocultas.

Aprendizaje Supervisado

edu.red

18 Radial-Basis Function (Clustering Method + LMS). PRIMER PASO: Algoritmo Clustering: 1. Dividir aleatoriamente los ejemplos en k conjuntos y calcular la media (el punto medio) de cada conjunto. 2. Reasignar cada ejemplo al cjto. con punto medio más cercano. 3. Calcular los puntos medios de los k conjuntos. 4. Repetir los pasos 2 y 3 hasta que los conjuntos no varíen. SEGUNDO PASO: Recodificar los ejemplos como distancias a los centros y normalizar (cada ejemplo pasa a ser un vector de k eltos). TERCER PASO: Con un perceptron de k elementos de entrada y una salida, aplicar el algoritmo visto antes. Aprendizaje Supervisado PARTICIÓN HIPERESFÉRICA CON 4 centros. Se convierte en una partición lineal (hiperplano) en un espacio de 4 dimensiones con los ejemplos siendo las distancias a los centros.

edu.red

19 Árboles de Decisión (ID3 (Quinlan), C4.5 (Quinlan), CART). Algoritmo Divide y Vencerás: 1. Se crea un nodo raíz con S:= todos los ejemplos. 2. Si todos los elementos de S son de la misma clase, el subárbol se cierra. Solución encontrada. 3. Se elige una condición de partición siguiendo un criterio de partición (split criterion). 4. El problema (y S) queda subdivido en dos subárboles (los que cumplen la condición y los que no) y se vuelve a 2 para cada uno de los dos subárboles. Aprendizaje Supervisado PARTICIÓN CUADRICULAR. 0 1 1 0 X>0.25 No X>0.25 X>0.66 X>0.75 Y>0.25 Y>0.6 Sí Y>0.25 No Sí Sí X>0.75 X>0.66 Y>0.6 Sí No No No Sí

edu.red

20 Árboles de Decisión. Ejemplo C4.5 con datos discretos: Example Sky Temperature Humidity Wind PlayTennis 1 Sunny Hot High Weak No 2 Sunny Hot High Strong No 3 Overcast Hot High Weak Yes 4 Rain Mild High Weak Yes 5 Rain Cool Normal Weak Yes 6 Rain Cool Normal Strong No 7 Overcast Cool Normal Strong Yes 8 Sunny Mild High Weak No 9 Sunny Cool Normal Weak Yes 10 Rain Mild Normal Weak Yes 11 Sunny Mild Normal Strong Yes 12 Overcast Mild High Strong Yes 13 Overcast Hot Normal Weak Yes 14 Rain Mild High Strong No Aprendizaje Supervisado

edu.red

21 Árboles de Decisión. Ejemplo C4.5 con datos discretos:

Representación Lógica: (Outlook=Sunny AND Humidity=Normal) OR (Outlook=Overcast) OR (Outlook=Rain AND Wind=Weak) Aprendizaje Supervisado Outlook? YES Humidity? Sunny Overcast Rain Wind? YES YES NO NO High Normal Strong Weak P.ej., la instancia (Outlook = sunny, Temperature = cool, Humidity = high, Wind = strong) es NO.

edu.red

22 Árboles de Decisión (ID3, C4.5, CART). El criterio GANANCIA DE INFORMACIÓN (C4.5) ha dado muy buenos resultados. Suele derivar en una preferencia en árboles pequeños (navaja de Occam).

VENTAJAS: Muy fácil de entender y de visualizar el resultado. Son robustos al ruido. Existen algoritmos de post-pruning para podar hojas poco significativas (que sólo cubren uno o muy pocos ejemplos).

DESVENTAJAS: Suele ser muy voraz (no hace backtracking: mínimos locales). Si el criterio de partición no está bien elegido, las particiones suelen ser muy ad-hoc y generalizan poco.

Aprendizaje Supervisado

edu.red

23 Naive Bayes Classifiers.

Asumiendo independencia entre los atributos, tenemos:

Aprendizaje Supervisado PARTICIÓN CUADRICULAR (intervalo fijo, 0.2). 0 1 1 0 0.2 0.4 0.6 0.8 0.2 0.4 0.6 0.8 P( |int) 3/10 1/10 1/10 3/10 3/10 P(int| ) P(int| ) P( |int) 4/10 0 1/10 4/13 1/10 5/13 2/10 2/13 2/10 2/13 ? P( | ) = P( ) · P(0.2<=0.4| ) · P(0.4<=0.4| ) · P(0.4<=0.6| )= = 0.435 · 1/10 · 1/10 = 0.004 ? P( | ) = P( ) · P(0.2’ es un problema relacional IMPURO.

Algún método no-relacional puede funcionar bien, pero otros no. Aprendizaje Supervisado x > y x < y ’ es un problema relacional IMPURO.

Algún método no-relacional puede funcionar bien, pero otros no. Aprendizaje Supervisado x > y x < y

edu.red

35 ¿Relacional o No? Funciones Heurísticas: Permiten determinar el grado de continuidad o separabilidad, considerando una medida de distancia. Si la separabilidad es baja, debemos intentar métodos no basados en distancias.

Separabilidad Lineal (Minsky and Papert 1988) Problema: Muy pobre. Muchos métodos no relacionales son capaces de aprender aunque los datos no sean separables linealmente.

Separabilidad Geométrica de Thornton (1997)

donde f(·) es la función definida por los datos, nn(·) es el vecino más cercano y eq(a,b) =1 sii a=b. Si no, =0. Problema: depende mucho del número de ejemplos. Aprendizaje Supervisado

edu.red

36 Funciones Heurísticas.

Separabilidad Geométrica Radial: Porcentaje medio de los ejemplos tales que sus ejemplos próximos en un radio r son de la misma clase.

El radio a utilizar se puede calcular a partir de la densidad de los ejemplos. También se puede calcular una RGS’ que no incluye el propio punto. Aprendizaje Supervisado

edu.red

37 Ejemplos:

GS(Paridad) = 0 GS(Mayor) = 1 (suponiendo infinitos ejemplos) Aprendizaje Supervisado GS = 21/23 = 0.91 RGS = 18.44/23 = 0.8

edu.red

38 Métodos pseudo-relacionales Una manera de poder abordar problemas con poca separabilidad es transformar los datos, mediante recodificaciones o aumento de la dimensionalidad.

Super-charging: aumentar la dimensionalidad separando todos los atributos en dígitos binarios.

Pick and Mix: crear nuevos atributos como combinación de los ya existentes.

SCIL: iterar múltiples veces un método clásico fence & fill seguido de recodificación (Thornton 2000):. Aprendizaje Supervisado

edu.red

39 Super-charging, ejemplo: Problema MONKS2 del repositorio UCI se define como: la salida es cierta si “exactamente dos de las seis variables de entrada tienen su primer valor”. Si se aplica ID3 directamente, el resultado es un 67,9% de acierto sobre los datos de prueba.

CODIFICACIÓN: se obtienen 17 dimensiones separando las posibles igualdades (x1=a, x2=b, x3=c, y1= 1, y2=4, …)

Si se aplica ahora ID3 el resultado es un 77%. Si se aplica backpropagation con un número suficiente de unidades ocultas, consigue 100%. PROBLEMAS: A veces ‘sobreajusta’ (overfits), dando patrones irreales. Además los modelos aprendidos son difícilmente inteligibles. Incrementar el número de atributos aumenta el coste temporal. Aprendizaje Supervisado

edu.red

40 Pick-and-Mix: Algunos problemas son relacionales debido simplemente a relaciones triviales entre los atributos.

Si tenemos en el conocimiento previo o de base B algunas de estas relaciones triviales, podríamos añadir nuevos atributos a los datos combinando los atributos originales con estas funciones triviales.

Esta solución es especialmente útil para modelos matemáticos y físicos, ya que se pueden utilizar las operaciones básicas (+, –, /, *) sobre los atributos y conseguir modelos no lineales.

En general el número de funciones de B a probar se dispara, o éstas deben estar muy bien elegidas, lo que hace que parte de la solución se disponga antes de empezar (lo mismo ocurre con muchos sistemas ILP similares, como FOIL, o con la regresión logarítmica).

Sin embargo, aun probando muchísimas funciones en el conocimiento previo, no resuelven otros problemas relacionales, como el de la paridad o el MONKS2. Aprendizaje Supervisado

edu.red

41 Pick-and-Mix, ejemplo: El sistema BACON (Langley 1978, 1979, et al. 1983). Descubrimiento de la ley de Kepler (y2/d3 es una constante): Planeta y d y/d (y/d)/d ((y/d)/d)y (((y/d)/d)y)/d Mercurio 0.24 0.39 0.62 1.61 0.39 1.00 Venus 0.61 0.72 0.85 1.18 0.72 1.00 Tierra 1.00 1.00 1.00 1.00 1.00 1.00 Marte 1.88 1.52 1.23 0.81 1.52 1.00 Ceres 4.60 2.77 1.66 0.60 2.76 1.00 Júpiter 11.86 5.20 2.28 0.44 5.20 1.00 Saturno 29.46 9.54 3.09 0.32 9.54 1.00 Urano 84.01 19.19 4.38 0.23 19.17 1.00 Neptuno 164.80 30.07 5.48 0.18 30.04 1.00 Plutón 248.40 39.52 6.29 0.16 39.51 1.00 T.Beta 680.00 77.22 8.81 0.11 77.55 1.00 (y representa el periodo del planeta, d representa la distancia al sol, ambos valores normalizados respecto a la tierra) Aprendizaje Supervisado

edu.red

42 Condiciones de Pick & Mix: En minería de datos, generalmente los datos sugieren las creación de nuevos campos (columnas) por pick & mix. Ejemplos: height^2/weight (índice de obesidad) debt/earnings passengers * miles credit limit – balance population / area minutes of use / number of telephone calls activation_date – application_date number of web pages visited / total amount purchased Es conveniente añadirlas, pero siempre una sola combinación. No poner x/y si ya se ha puesto x-y. Aprendizaje Supervisado

edu.red

43 Pero estos métodos pseudo-relacionales no son capaces de:

detectar relaciones entre varios ejemplos o entre partes complejas del mismo ejemplo.

aprender funciones recursivas.

Veamos un ejemplo que sí y otro que no…

Aprendizaje Supervisado ¿En qué casos es necesario expresividad relacional y/o recursiva?

edu.red

44 EJEMPLO. Aprender el concepto daughter con LINUS (Lavrac et al. 1991):

B= { parent(eve, sue). parent(ann, tom). parent(pat,ann). parent(tom,sue). female(ann). female(sue). female(eve). } E+= { daughter(sue,eve). daughter(ann,pat). } E?= { daughter(tom,ann). daughter(eve,ann). }

LINUS transforma B y E a un problema de atributos (proposicional):

Aprendizaje Supervisado Resultado del aprendizaje de atributos (p.ej. C4.5): class = + if (female(X) = true) ? (parent(Y,X) = true) LINUS transforma de nuevo a Prolog: daughter(X,Y) :- female(X), parent(Y,X). Es simplemente un ejemplo de Pick & Mix

edu.red

45 EJEMPLO. Aprender el problema no. 47 de Bongard (I.Q. tests) :

E+= { shape(case1, s1-1, triangle, small, up). shape(case1, s1-2, circle, large, n_a). shape(case2, s2-1, triangle, large, up). shape(case2, s2-2, circle, small, n_a). shape(case2, s2-3, square, large, n_a). in(s1-1,s1-2). left(s2-1,s2-2). } E-= { left(s1-1,s1-2). in(s2-1,s2-2). }

Podríamos transformarla a un problema de atributos (proposicional):

Problemas: Muchos atributos (y muchos de ellos vacíos). Ambigüedad (existen múltiples representaciones para el mismo ejemplo). Una mala solución puede depender de esta representación. P.ej.: Clase = + if shape1 = triangle

Aprendizaje Supervisado El aprendizaje relacional se necesita estrictamente cuando los ejemplos consisten de un número variable de objetos y de las relaciones entre estos objetos son importantes.

edu.red

46 EJEMPLOS. MEMBER: member(X,[X|Z]). member(X,[Y|Z]):- member(X,Z). RELATIVE: ancestor(X,Y):- parent(X,Y). ancestor(X,Y):- parent(X,Z), ancestor(Z,Y). relative(X,Y) :- ancestor(X,W), ancestor(Y,W). REACH: reach(X,Y):- link(X,Y). reach(X,Y):- link(X,Z), reach(Z,Y).

Aprendizaje Supervisado La recursividad se requiere cuando la profundidad (el nivel) de las relaciones no se conoce a priori (objetos que contienen o se relacionan con un número variable de objetos).

edu.red

47 Aprendizaje Recursivo:

Modelos Estructurales de Grammar Learning: Es uno de los campos más antiguos de ML: (las frases gramaticales son de la clase true) Aprendizaje de autómatas aceptadores de gramáticas. Gramáticas regulares estocásticas. Lenguajes probabilísticos: cadenas de Markov, algoritmo de Viterbi

Más información “Aprendizaje y Percepción” (semestre 4B)

Aprendizaje Supervisado

edu.red

48 Aprendizaje Relacional y Recursivo:

IFP (Inductive Functional Programming). Se aprenden reglas de la forma: g(f(a), X)?b Existen aproximaciones con LISP, el lenguaje ML y otros (70s).

ILP (Inductive Logic Programming). El lenguaje representacional es cláusulas de Horn: p(X,Y,b) :- q(f(X,Y), c) Inicio en los 80 (Shapiro) y gran desarrollo en la década de los 90.

IFLP (Inductive Functional Logic Programming): g(f(a),X)? b :- p(X,b) = true, q(X,X) = a Mayor naturalidad y expresividad. Ventaja con problemas de clasif.

Aprendizaje en Orden Superior. Algún intento con el lenguaje Escher. Todavía en pañales. Aprendizaje Supervisado

edu.red

49 Sobremuestreo (oversampling): En problemas de clasificación sobre bases de datos es posible que haya muchísima más proporción de algunas clases sobre otras. Esto puede ocasionar que haya muy pocos casos de una clase: Problema: la clase escasa se puede tomar como ruido y ser ignorada por la teoría. Ejemplo: si un problema binario (yes / no) sólo hay un 1% de ejemplos de la clase no, la teoría “todo es de la clase yes” tendría un 99% de precisión (accuracy).

Soluciones: Utilizar sobremuestro… Análisis ROC Aprendizaje Supervisado. Sobremuestreo

edu.red

50 Sobremuestreo (oversampling / balancing): El sobremuestreo consiste en filtrar los ejemplos (tuplas) de las clases con mayor proporción, manteniendo las tuplas de las clases con menor proporción. Esto, evidentemente, cambia la proporción de las clases, pero permite aprovechar a fondo los ejemplos de las clases más raras. ¿Cuándo se debe usar sobremuestreo? Cuando una clase es muy extraña: p.ej. predecir fallos de máquinas, anomalías, excepciones, etc. Cuando todas las clases (especialmente las escasas) deben ser validadas. P.ej. si la clase escasa es la de los clientes fraudulentos. Pegas: hay que ser muy cuidadoso a la hora de evaluar los modelos. Aprendizaje Supervisado. Sobremuestreo

edu.red

51 Macro-average: Una alternativa al sobremuestreo consiste en calcular la precisión de una manera diferente. Habitualmente, la precisión (accuracy) se calcula:

(conocido como micro-averaged accuracy) La alternativa es calcular la precisión como:

(conocido como macro-averaged accuracy) De esta manera se obtiene un resultado mucho más compensado Aprendizaje Supervisado. Macro-average

edu.red

52 Errores de Clasificación (confusión de clases) :

En muchos casos de minería de datos, el error de clasificación sobre una clase no tiene las mismas consecuencias económicas, éticas o humanas que con otras.

Ejemplo: clasificar una partida de neumáticos en perfectas condiciones como defectuoso o viceversa. Aprendizaje Supervisado.Matrices de Coste y Confusión.

edu.red

53 Matrices de Confusión y Coste: Existen técnicas para ponderar las clases ? se combinan las “matrices de confusión” con las “matrices de costes”:

Aprendizaje Supervisado.Matrices de Coste y Confusión. Coste total: -29787€

edu.red

54 Análisis ROC (Receiver Operating Characteristic): Se basa en dibujar el “true-positive rate” en el eje y y el “false-positive rate” en el eje x. Por ejemplo, dada la siguiente matriz de confusión:

Tendríamos TPR= 0.6 y FPR= 0.3. Aprendizaje Supervisado.Análisis ROC.

edu.red

55 Errores de Clasificación y Mailings: Más aún… Existen técnicas específicas para evaluar la conveniencia de campañas de ‘mailings’ (propaganda por correo selectiva): EJEMPLO: Una compañía quiere hacer un mailing para fomentar la compra de productos. En caso de respuesta positiva, los clientes suelen comprar productos por valor medio de 100€. Si un 55% suelen ser costes de producción (fijos y variables), tenemos que por cada respuesta positiva hay una ganancia media de 45€. Cada mailing cuesta 1€ (portes, folletos) y el conjunto de la campaña (indep. del número) tendría un coste base 20.000€. Con un 1.000.000 de clientes, en el que el 1% responde, ¿cómo podemos evaluar y aplicar un modelo que nos dice (ordena) los mejores clientes para la campaña? Aprendizaje Supervisado.Matrices de Coste y Confusión.

edu.red

56 Errores de Clasificación y Mailings. Ejemplo: Tabla mostrando el beneficio para cada decil:

Coste Campaña 20.000 –> 20.000 100.000 x 1 –> 100.000 Total: 120.000

Benef. Campaña 3.000 x 45 –> 135.000

Benef. Netos: 15.000

Coste Campaña 20.000 –> 20.000 200.000 x 1 –> 100.000 Total: 220.000

Benef. Campaña 5.000 x 45 –> 225.000

Benef. Netos: 5.000 Aprendizaje Supervisado.Matrices de Coste y Confusión.

edu.red

57 Errores de Clasificación y Mailings. Ejemplo (cont.): Gráfica mostrando el beneficio para tres campañas diferentes: Aprendizaje Supervisado.Matrices de Coste y Confusión.

edu.red

58 Errores de Clasificación y Mailings:

En este tipo de problemas (si son binarios o ordenados) es preferible hacer hipótesis con clases continuas (estimaciones), porque permiten combinar con los costes de una manera más detallada.

P.ej. es preferible un modelo que determine en una escala de 0 a 10 lo bueno que es un cliente, que un modelo que determine si un cliente es malo o bueno. Aprendizaje Supervisado.Matrices de Coste y Confusión.

edu.red

59 Secuenciación de Mailings: No sobrecargar los clientes con demasiados mensajes de márketing… O bien acabarán ignorándolos o bien se cambiarán de compañía.

El mismo pequeño grupo de gente se elige una y otra vez y otros no se eligen nunca. Aprendizaje Supervisado.Mailings.

edu.red

60 Secuenciación de Mailings: Hay que intentar abarcar mejor los clientes:

Ahora todos los clientes participan en una campaña. Aprendizaje Supervisado.Mailings.

edu.red

61 Combinación de Hipótesis:

VOTING/ARBITER/COMBINER: Se utiliza DISTINTOS algoritmos para aprender distintas hipótesis sobre todo el conjunto de los datos. Luego se combinan las distintas hipótesis.

Maneras de COMBINAR hipótesis: WEIGHTING MAJORITY: el valor se obtiene haciendo la media (caso continuo) o la mediana (caso discreto). STACKING/CASCADE: se utiliza cada hipótesis como una variable y se utiliza otro algoritmo (p.ej. una red neuronal para asignar diferentes pesos a las diferentes hipótesis). Métodos PredictivosCombinación de Hipótesis

edu.red

62 Voting y el Clasificador Bayesiano Óptimo:

Una pregunta es: “Qué hipótesis es más probable?” Otra pregunta es: “Qué predicción es más probable?” Consideremos una evidencia D y tres hipótesis h1, h2 y h3, cuyas probabilidades a posteriori se han calculado:

Para la próxima observación h1 la clasifica como positiva (true), mientras que h2 y h3 la clasifican como negativa (false). Según MAP y suponiendo P(h) uniforme, la mejor hipótesis es h1 y la nueva observación debería clasificarse como positiva… Sin embargo…

La mejor clasificación de una nueva instancia se obtiene combinando las predicciones de las distintas hipótesis consideradas (voting). Métodos PredictivosCombinación de Hipótesis

edu.red

63 Voting y el Clasificador Bayesiano Óptimo:

Justificación:

Para el ejemplo anterior:

Por tanto:

Métodos PredictivosCombinación de Hipótesis

edu.red

64 Voting y el Clasificador Bayesiano Óptimo:

No existe otro método de clasificación mejor si se conocen el espacio de hipótesis y su distribución a priori.

Es importante resaltar que las predicciones que se van generando por el clasificador bayesiano óptimo forman una nueva hipótesis hOBC.

Esta hipótesis puede ser que incluso no pertenezca a H!!! Esto permite sobrepasar el límite de expresividad inicial marcado por H.

Sin embargo, el mayor problema es que la hipótesis hOBC muchas veces no es representable y mucho menos inteligible y no proporciona conocimiento, sólo buenas predicciones. Métodos PredictivosCombinación de Hipótesis

edu.red

65 Potenciación mediante Combinación de Hipótesis:

BOOSTING: Se utiliza el MISMO algoritmo para aprender distintas hipótesis sobre los mismos datos, aumentando el peso de aquellos ejemplos que han sido clasificados incorrectamente. Luego se combinan las distintas hipótesis.

BAGGING: Se utiliza el MISMO algoritmo para aprender distintas hipótesis sobre n muestras de m de los m datos con reemplazamiento (bootstrap). Luego se combinan las distintas hipótesis.

RANDOMISING: Se utiliza el MISMO algoritmo para aprender distintas hipótesis sobre los mismos datos, pero variando aleatoriamente alguna característica del algoritmo (restringiendo los atributos que se usan cada vez, variando el criterio de selección, etc.). Luego se combinan las distintas hipótesis.

Métodos PredictivosCombinación de Hipótesis

edu.red

Ejemplo: Boosting (reiteración): A veces unos malos resultados se pueden mejorar mediante la técnica de BOOSTING:

Se da peso a los ejemplos y para cada iteración se aprende una nueva hipótesis, siendo los ejemplos reponderados para que el sistema se centre en los ejemplos que han sido mal clasificados.

Algoritmo más simple: Dar a todos los ejemplos el mismo peso. De i:1 hasta T (nº de reiteraciones) Aprender una hipótesis hi con los pesos actuales. Disminuir los pesos de los ejemplos que hi clasifica correctamente. Después se promedia una solución ponderada a partir de las T hipótesis, teniendo en cuenta la precisión de cada una. Métodos PredictivosCombinación de Hipótesis

Partes: 1, 2

Página anterior

Volver al principio del trabajo

Página siguiente