Descargar

El Problema de la Extracción Automática de Conocimiento

Enviado por Pablo Turmero


Partes: 1, 2

    edu.red

    1 ¿Qué es aprendizaje? (visión genérica, Mitchell 1997) es mejorar el comportamiento a partir de la experiencia. Aprendizaje = Inteligencia. (visión más estática) es la identificación de patrones, de regularidades, existentes en la evidencia. (visión externa) es la predicción de observaciones futuras con plausibilidad. (visión teórico-informacional, Solomonoff 1966) es eliminación de redundancia = compresión de información. El Problema de la Extracción Automática de Conocimiento La minería de datos no es más que un caso especial de aprendizaje computacional inductivo. Aprendizaje Inductivo: razonamiento hipotético de casos particulares a casos generales.

    edu.red

    2 ¿Cómo se validan/descartan las hipótesis para conformar el conocimiento adquirido?

    Principio (‘escándalo’) de la Inducción: las hipótesis pueden ser refutadas, pero nunca confirmadas.

    Y para las que todavía no han sido refutadas, ¿cuál elegimos? Necesidad de criterios de selección: simplicidad, refuerzo, … Existencia de métodos de validación: estadísticos, cross-validation, informacionales, …

    ¿Cuánto afecta a la plausibilidad el número de ejemplos? ¿Cómo afecta la presencia de ruido? El Problema de la Extracción Automática de Conocimiento

    edu.red

    3 Taxonomía de Técnicas de DM Clasificación de las técnicas de aprendizaje: Interpolación: una función continua sobre varias dimensiones Predicción secuencial: las observaciones están ordenadas secuencialmente. Se predice el siguiente valor de la secuencia. Caso particular de interpol. con 2 dim., una discreta y regular. Aprendizaje supervisado: cada observación incluye un valor de la clase a la que corresponde. Se aprende un clasificador. Caso particular de interpolación: la clase (imag. función) es discreta. Aprendizaje no supervisado: el conjunto de observaciones no tienen clases asociadas. El objetivo es detectar regularidades en los datos de cualquier tipo: agrupaciones, contornos, asociaciones, valores anómalos. Abducción o Aprendizaje Analítico: El contexto B es muy importante. El objetivo es explicar la evidencia respecto a B. Predictivos Descriptivos Explicativos Inductivos Abductivos Cualquier problema de aprendizaje inductivo se puede presentar (más o menos directamente) de cualquiera de estas cuatro formas.

    edu.red

    4 Ejemplos: Interpolación:

    Predicción secuencial: 1, 2, 3, 5, 7, 11, 13, 17, 19, … ? Aprendizaje supervisado: 1 3 -> 4. 3 5 -> 8. 4 2 -> ? 7 2 -> 9. Segmentación (Aprendizaje no supervisado):

    ¿Cuántos grupos hay? ¿Qué grupos formo?

    Predictivos Descriptivos Taxonomía de Técnicas de DM f(2.2)=? ? Análisis Exploratorio: Correlaciones, Asociaciones y Dependencia

    edu.red

    5 PREDICTIVO: Interpolación y Predicción Secuencial. Generalmente las mismas técnicas: Datos continuos (reales): Regresión Lineal: Regresión lineal global (clásica). Regresión lineal ponderada localmente. Regresión No Lineal: logarítmica, pick & mix, … Datos discretos: No hay técnicas específicas: se suelen utilizar técnicas de algoritmos genéticos o algoritmos de enumeración refinados.

    Taxonomía de Técnicas de DM

    edu.red

    6 PREDICTIVO: Aprendizaje supervisado. Dependiendo de si se estima una función o una correspondencia: clasificación: se estima una función (las clases son disjuntas). categorización: se estima una correspondencia (las clases pueden solapar).

    Dependiendo del número y tipo de clases: clase discreta: se conoce como “clasificación”. Ejemplo: determinar el grupo sanguíneo a partir de los grupos sanguíneos de los padres. si sólo tiene dos valores (V y F) se conoce como “concept learning”. Ejemplo: Determinar si un compuesto químico es cancerígeno.

    clase continua o discreta ordenada: se conoce como “estimación” (o también “regresión”). Ejemplo: estimar el número de hijos de una familia a partir de otros ejemplos de familias. Taxonomía de Técnicas de DM

    edu.red

    7 PREDICTIVO: Aprendizaje supervisado (Clasificación).

    Técnicas: k-NN (Nearest Neighbor). k-means (competitive learning). Perceptron Learning. Multilayer ANN methods (e.g. backpropagation). Radial Basis Functions. Decision Tree Learning (e.g. ID3, C4.5, CART). Bayes Classifiers. Center Splitting Methods. Rules (CN2) Pseudo-relational: Supercharging, Pick-and-Mix. Relational: ILP, IFLP, SCIL. Taxonomía de Técnicas de DM Similarity-Based Fence and Fill

    edu.red

    8 DESCRIPTIVO: Análisis Exploratorio

    Técnicas: Estudios correlacionales Asociaciones. Dependencias. Detección datos anómalos. Análisis de dispersión. Técnicas de Aprendizaje Automático

    edu.red

    9 DESCRIPTIVO: Segmentación (Aprendizaje no supervisado)

    Técnicas de clustering: Taxonomía de Técnicas de DM k-means (competitive learning). redes neuronales de Kohonen EM (Estimated Means) (Dempster et al. 1977). Cobweb (Fisher 1987). AUTOCLASS …

    edu.red

    10 Un concepto importante en el aprendizaje supervisado (clasificación) y no supervisado (segmentación) es el concepto de similitud:

    La razón de este uso es que, intuitivametne, datos similares tendrán clases/grupos similares. ¿Cómo se mide la similitud?

    DISTANCIA inversa a SIMILITUD.

    Los métodos de similitud (o de distancia) se basan en almacenar los ejemplos vistos, y calcular la similitud/distancia del nuevo caso con el resto de ejemplos.

    Similitud/Distancia

    Partes: 1, 2
    Página siguiente