11
Muchísimas formas de calcular la distancia: Distancia Euclídea:
Distancia de Manhattan:
Distancia de Chebychev:
Distancia del coseno: cada ejemplo es un vector y la distancia es el coseno del ángulo que forman
Distancias por Diferencia: ejemplo: if x=y then D=0 else D=1 Distancia de Edición: Distancias Específicas: para los ejemplos complejos de CBR. Similitud/Distancia Valores Continuos (conveniente normalizar entre 0-1 antes) Valores Continuos. No es necesario normalizar Valores Discretos
12
Si sólo nos basamos en la evidencia, una solución al problema sería cualquier hipótesis que cubre la evidencia.
Si el lenguaje es expresivo, pueden existir infinitas hipótesis.
Objetivo: Elegir la hipótesis h que MINIMIZA EL ERROR de la hipótesis h respecto la función objetivo f,
¿Qué error? Evaluación de Hipótesis El problema del aprendizaje NO está especificado completamente.
13 Medidas de Error para evaluar Hipótesis
TRUE ERROR: caso discreto caso continuo (p.ej.error cuadrático medio)
SAMPLE ERROR : caso discreto caso continuo (p.ej.error cuadrático medio)
donde (?(true)=1, ?(false)=0) y n= |trainSet| Evaluación de Hipótesis
14 Problemas típicos: under-fitting (sobregeneralización o subajuste) over-fitting (sobreespecialización o superajuste).
Definición de over-fitting: Una hipótesis h ? H sobre-especializa o superajusta si existe una hipótesis alternativa h’ ? H tal que:
y Evaluación de Hipótesis Sample or train error True error
15
Problema: f (la función objetivo) no se conoce!!!
Podemos calcular el SAMPLE ERROR pero no el TRUE ERROR.
Si nos fijamos sólo en toda la muestra y minimizamos el SAMPLE ERROR, aparecerán dos problemas: si la evidencia es sólo positiva: under-fitting o sobregeneralización. Si la evidencia tiene más de una clase: over-fitting o sobreespecialización. Evaluación de Hipótesis
16
APROXIMACIONES: Asumir distribuciones a priori. Criterio de simplicidad, de descripción o transmisión mínimas. Separar: Training Set y Test Set. Cross-validation. Basadas en refuerzo.
Otras preguntas importantes:
Evaluación de Hipótesis ¿Qué hipótesis elegimos? ¿Cómo sabemos lo bien que se comportará en el futuro? En caliente En frío En caliente En frío
17 Evaluación por técnicas bayesianas. La mejor hipótesis es la más probable. Basadas en el teorema de Bayes. Despejan P(h|D). La distribución de hipótesis a priori P(h) y la probabilidad de unas observaciones respecto a cada hipótesis P(D|h) deben ser conocidas. Son sólo técnicas evaluadoras aunque si el conjunto de hipótesis H es reducido se pueden utilizar en algoritmos de aprendizaje. Permiten acomodar hipótesis probabilísticas tales como “este paciente de neumonía tiene un 93% de posibilidades de recuperarse”. Muchas veces no se conoce P(h) o incluso P(D|h). Se hacen suposiciones: distribución uniforme, normal o universal. Evaluación de Hipótesis
18 Teorema de Bayes, MAP y Maximum Likelihood: P(h|D): probabilidad de una hipótesis dado un cjto. de datos. P(h): probabilidad a priori de las hipótesis. P(D|h): probabilidad de D dada la hipótesis. P(D): probabilidad a priori de los datos (sin otra información). Teorema de Bayes: (prob. a posteriori a partir de a priori)
Criterio MAP (Maximum a Posteriori) (h es indep. de P(D)):
Maximum Likelihood (asumiendo P(h) uniforme): Evaluación de Hipótesis El Naive Bayes Classifier es un caso particular de esto.
19 Evaluación bayesiana:
Si el cjto. de hipótesis H es pequeño y conocido: Se puede asumir la distribución uniforme:
Si H es infinito: La distribución uniforme no está bien definida (P=0). Aunque el maximum likelihood se puede seguir utilizando. Evaluación de Hipótesis
20 El principio MDL (Minimum Description Length): Asumimos P(h) como la distribución universal (Occam’s Razor):
donde K(·) es la complejidad descripcional (Kolmogorov) de H.
FORMALIZACIÓN DE LA NAVAJA DE OCCAM: “Las hipótesis con mínima descripción más pequeña son más probables”.
Asumimos P(D|h) de la misma manera:
Evaluación de Hipótesis
21 El principio MDL:
A partir de MAP tenemos:
Resulta en:
Evaluación de Hipótesis PRINCIPIO MDL: La hipótesis más probable es la que minimiza la suma de su descripción y la descripción de los datos respecto a ella.
22 PARTICIÓN DE LA MUESTRA Evaluar una hipótesis sobre los mismos datos que han servido para generarla da siempre resultados muy optimistas. Solución: PARTIR EN: Training Set y Test Set. Si los datos disponibles son grandes (o ilimitados) : Training Set: cjto. con el que el algoritmo aprende una o más hipótesis. Test Set: cjto. con el que se selecciona la mejor de las anteriores y se estima su validez.
Para problemas con clase discreta, se calcula la “accuracy”, que se mide como el porcentaje de aciertos sobre el test set. Para problemas con clase continua, se utiliza la media del error cuadrático u otras medidas sobre el test set. Evaluación de Hipótesis
23 PARTICIÓN DE LA MUESTRA (Cross-validation). Si los datos disponibles son pequeños, partir los datos en dos cjtos restringe el número de ejemplos disponibles para el algoritmo –> peores resultados. SOLUCIONES: 2-fold cross-validation: se parte en 2 cjtos. S1 y S2 de igual tamaño. Se entrena el algoritmo con S1 y se evalúan las hipótesis H1 con S2. Se entrena luego el algoritmo con S2 y se evalúan las hipótesis H2 con S1. Se selecciona la hipótesis con la mejor precisión o el menor error. K-fold cross-validation: los n datos se parten k veces (k
Página anterior | Volver al principio del trabajo | Página siguiente |