1 Clustering Sinónimos según el contexto
Clustering (IA)
Aprendizaje no supervisado (IA)
Clasificación (Estadística)
Ordenación (Psicología)
Segmentación (Marketing)
Introducción Similitud Métodos K-Means Jerárquicos Densidad Otros Subspace clustering Validación Bibliografía
2 Clustering
Objetivo Agrupar objetos similares entre sí que sean distintos a los objetos de otros agrupamientos [clusters].
Aprendizaje no supervisadoNo existen clases predefinidas
Los resultados obtenidos dependerán de: El algoritmo de agrupamiento seleccionado. El conjunto de datos disponible La medida de similitud utilizada para comparar objetos.
Introducción Similitud Métodos K-Means Jerárquicos Densidad Otros Subspace clustering Validación Bibliografía
3 Clustering
Encontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre sí y diferentes de los objetos de otros grupos: (Gp:) Maximizar distanciainter-cluster
(Gp:) Minimizar distanciaintra-cluster
4 Clustering Aplicaciones Reconocimiento de formas. Mapas temáticos (GIS) Marketing: Segmentación de clientes Clasificación de documentos Análisis de web logs (patrones de acceso similares)
Aplicaciones típicas en Data Mining: Exploración de datos (segmentación & outliers) Preprocesamiento (p.ej. reducción de datos)
5 Clustering ¿Cuál es la forma natural de agrupar los personajes?
Hombres vs. Mujeres
6 Clustering ¿Cuál es la forma natural de agrupar los personajes?
Simpsons vs. Empleados de la escuela de Springfield
7 Clustering ¿Cuál es la forma natural de agrupar los personajes?
¡¡¡ El clustering es subjetivo !!!
8 Medidas de similitud 0.23 3 342.7 Peter Pedro
9
Usualmente, se expresan en términos de distancias:
d(i,j) > d(i,k) nos indica que el objeto i es más parecido a k que a j
La definición de la métrica de similitud/distanciaserá distinta en función del tipo de dato yde la interpretación semántica que nosotros hagamos.
En otras palabras, la similitud entre objetos es subjetiva. Medidas de similitud
10 Medidas de similitud (Gp:) ¿Cuántos agrupamientos?
(Gp:) ¿Cuatro?
(Gp:) ¿Dos?
(Gp:) ¿Seis?
11 Medidas de similitud Atributos continuos Usualmente, se estandarizan a priori:
Desviación absoluta media:
z-score (medida estandarizada):
12 Métricas de distancia Distancia de Minkowski
Distancia de Manhattan (r=1) / city block / taxicab
Distancia euclídea (r=2):
Distancia de Chebyshev (r??) / dominio / chessboard
Medidas de similitud
Página siguiente |