Descargar

Fundamentos de minería de datos. Clustering

Enviado por Pablo Turmero


Partes: 1, 2

    edu.red

    1 Clustering “Sinónimos” según el contexto…

    Clustering (IA)

    Aprendizaje no supervisado (IA)

    Clasificación (Estadística)

    Ordenación (Psicología)

    Segmentación (Marketing)

    Introducción Similitud Métodos K-Means Jerárquicos Densidad Otros Subspace clustering Validación Bibliografía

    edu.red

    2 Clustering

    Objetivo Agrupar objetos similares entre sí que sean distintos a los objetos de otros agrupamientos [clusters].

    Aprendizaje no supervisadoNo existen clases predefinidas

    Los resultados obtenidos dependerán de: El algoritmo de agrupamiento seleccionado. El conjunto de datos disponible La medida de similitud utilizada para comparar objetos.

    Introducción Similitud Métodos K-Means Jerárquicos Densidad Otros Subspace clustering Validación Bibliografía

    edu.red

    3 Clustering

    Encontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre sí y diferentes de los objetos de otros grupos: (Gp:) Maximizar distanciainter-cluster

    (Gp:) Minimizar distanciaintra-cluster

    edu.red

    4 Clustering Aplicaciones Reconocimiento de formas. Mapas temáticos (GIS) Marketing: Segmentación de clientes Clasificación de documentos Análisis de web logs (patrones de acceso similares) …

    Aplicaciones típicas en Data Mining: Exploración de datos (segmentación & outliers) Preprocesamiento (p.ej. reducción de datos)

    edu.red

    5 Clustering ¿Cuál es la forma natural de agrupar los personajes?

    Hombres vs. Mujeres

    edu.red

    6 Clustering ¿Cuál es la forma natural de agrupar los personajes?

    Simpsons vs. Empleados de la escuela de Springfield

    edu.red

    7 Clustering ¿Cuál es la forma natural de agrupar los personajes?

    ¡¡¡ El clustering es subjetivo !!!

    edu.red

    8 Medidas de similitud 0.23 3 342.7 Peter Pedro

    edu.red

    9

    Usualmente, se expresan en términos de distancias:

    d(i,j) > d(i,k) nos indica que el objeto i es más parecido a k que a j

    La definición de la métrica de similitud/distanciaserá distinta en función del tipo de dato yde la interpretación semántica que nosotros hagamos.

    En otras palabras, la similitud entre objetos es subjetiva. Medidas de similitud

    edu.red

    10 Medidas de similitud (Gp:) ¿Cuántos agrupamientos?

    (Gp:) ¿Cuatro?

    (Gp:) ¿Dos?

    (Gp:) ¿Seis?

    edu.red

    11 Medidas de similitud Atributos continuos Usualmente, se “estandarizan” a priori:

    Desviación absoluta media:

    z-score (medida estandarizada):

    edu.red

    12 Métricas de distancia Distancia de Minkowski

    Distancia de Manhattan (r=1) / city block / taxicab

    Distancia euclídea (r=2):

    Distancia de Chebyshev (r??) / dominio / chessboard

    Medidas de similitud

    Partes: 1, 2
    Página siguiente