Minería de datos [Witten & Frank 2000]: proceso de extracción de conocimiento válido, útil, comprensible, y desconocido, a partir de datos almacenados. válido: el conocimiento obtenido debe ser preciso ("correcto") para nuevos conjuntos de datos (no sólo para el conjunto utilizado en su obtención). útil: el conocimiento obtenido debe servir a la organización para tomar decisiones que le reporten algún beneficio. comprensible: el conocimiento obtenido debe ser fácil de interpretar y usar. novedoso: el conocimiento obtenido debe aportar a la organización, información desconocida hasta ese momento. ¿Qué es la Minería de Datos?
Minería de datos La minería de datos es una tecnología de soporte para usuario final, cuyo objetivo es extraer conocimiento útil y utilizable a partir de la información contenida en las bases de datos de las empresas. Los objetivos de un sistema de minería de datos nos permitirían analizar factores de influencia en determinados procesos, predecir o estimar variables o comportamientos futuros, sementar o agrupar ítems similares, además de obtener secuencias de eventos que provocan comportamientos específicos.
Minería de datos Los sistemas de minería de datos se desarrollan bajo lenguajes de ultima generación basados en la inteligencia artificial y utilizando métodos matemáticos, tales como: Redes neuronales Introducción de reglas Arboles de decisión Conjunto de reglas por clase Soporta también sofisticadas operaciones de análisis tales como los sistemas Scoring y aplicaciones de detección de fraude.
El proceso no trivial de identificar patrones válidos, nuevos, potencialmente útiles y entendibles en los datos Minería de datos
(Gp:) Conocimiento (Gp:) Patrones (Gp:) Datos Transformados (Gp:) Datos Seleccionados (Gp:) Datos (Gp:) Datos Preprocesados (Gp:) Selección (Gp:) Preprocesamiento (Gp:) Transformación (Gp:) Minería de datos (Gp:) Interpretación / evaluación Otro nombre para la Minería de Datos: Descubrimiento de conocimiento en bases de datos (KDD)
Fundamentos de la Minería datos Data Mining toma el proceso de evolución más allá del acceso y navegación retrospectiva de los datos, hacia la entrega de información prospectiva y proactiva. Data Mining está listo para su aplicación porque está soportado por tres tecnologías que ya están suficientemente maduras: Recolección masiva de datos. Potentes computadoras con multiprocesadores. Algoritmos de Data Mining.
Objetivos y características de la minería de datos Explorar los datos se encuentran en las profundidades de las bases de datos. Consolidar los datos en un almacén de datos. Tiene una arquitectura cliente–servidor usando procesamiento paralelo. Facilita el uso de varias herramientas y técnicas para la extracción de los datos. La minería de datos produce cinco tipos de información: — Asociaciones — Secuencias — Clasificaciones — Agrupamientos — Pronósticos
Alcances Minería Datos Descubrimiento automatizado de modelos previamente desconocidos. Predicción automatizada de tendencias y comportamientos. Aportes a la toma de decisiones con bases y fundamentos reales basados en los dato.
Aplicativos Los ambientes para el desarrollo de las bodegas de datos son: Oracle Data Warehouse SQL Server Entreprise ed. Sybase – PoweDesigner, Sybase IQ
Aplicaciones financieras y de banca: obtención de patrones de uso fraudulento de tarjetas. obtención de perfiles de clientes en el uso de tarjetas. obtención de correlaciones entre indicadores financieros. análisis de riesgos en la concesión de préstamos, … Análisis de mercado, distribución y comercio: análisis de la cesta de la compra. evaluación de campañas publicitarias. obtención de perfiles de clientes. análisis de la fidelidad de los clientes, … Otros sectores: compañías de servicios: telecomunicaciones, agua, gas, …. correo electrónico, agendas personales. turismo tráfico uso de web …
Ejemplo1: análisis de riesgo en préstamos bancarios. Un banco desea disponer de un modelo que le permita predecir qué tipo de clientes podrían no devolver un préstamo solicitado. La entidad dispone de información sobre préstamos anteriores, así como datos personales de los titulares de esos préstamos.
Ejemplo1: análisis de riesgo en préstamos bancarios. A partir de estos datos, las técnicas de DM podrían generar un modelo de los datos, consistente en un conjunto de reglas, que permitiesen predecir en el futuro, el posible comportamiento de un cliente que solicitase un préstamo.
Ejemplo1: análisis de riesgo en préstamos bancarios. Para nuestro estudio, existen dos clases de cliente: los que devuelven los préstamos y los que no los devuelven. Las reglas generadas en el proceso de DM, deben predecir la clase de un cliente (variable objetivo) a partir de sus características (variables predictivas).
Ejemplo1: análisis de riesgo en préstamos bancarios. Regla 1: Si cuentas-morosas > 0 entonces devuelve-préstamo = no Regla 2: Si cuentas-morosas = 0 Y ( salario>2.500 O D-credito>10) entonces devuelve-préstamo = sí …
(Gp:) X1, X2, …, X5 3, 5, …, 8 2, 4, …, 0 0, 1, …, 7 Ejemplo 2
(Gp:) X1, X2, …, X5 3, 5, …, 8 2, 4, …, 0 0, 1, …, 7 (Gp:) vs. (Gp:) X1 (Gp:) X2 (Gp:) P(X1) (Gp:) P(X2|X1) fumar cáncer Ejemplo 2
¿Para qué puede ser útil la Minería de Datos? 1 exabyte (1 millón de terabytes) se genera anualmente en todo el mundo
¿Para qué puede ser útil la Minería de Datos? (Cont.) Las BD se usan para: Guardar datos Confirmar hipótesis previas ¿Probar hipótesis alternativas?
¿Para qué puede ser útil la Minería de Datos? (Cont.) Control Diagnóstico Predicción Toma de decisiones (Gp:) Conocimiento (Gp:) Patrones
Herramientas para la Minería de Datos Métodos estadísticos Reglas de asociación (si-entonces) Árboles de decisión Modelos Gráficos Redes Neuronales Algoritmos Genéticos Lógica Difusa
Ejemplo3: definir grupos diferenciados de empleados. El departamento drecoursesos humanos de una gran empresa, desea categorizar a sus empleados en distintos grupos, con el objetivo de establecer una trato personalizado con ellos y definir las políticas sociales de la empresa. La organización dispone en sus bases de datos de información sobre sus empleados.
Ejemplo3: definir grupos diferenciados de empleados. ID Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo 1 10000 Sí No 0 Alquiler No 7 15 H 2 20000 No Sí 1 Alquiler Sí 3 3 M 3 15000 Sí Sí 2 Propietario Sí 5 10 H 4 30000 Sí Sí 1 Alquiler No 15 7 M 5 10000 Sí Sí 0 Propietario Sí 1 6 H 6 40000 No Sí 0 Alquiler Sí 3 16 M 7 25000 No No 0 Alquiler Sí 0 8 H 8 20000 No Sí 0 Propietario Sí 2 6 M 9 20000 Sí Sí 3 Propietario No 7 5 H 10 30000 Sí Sí 2 Propietario No 1 20 H 11 50000 No No 0 Alquiler No 2 12 M 12 8000 Sí Sí 2 Propietario No 3 1 H 13 20000 No No 0 Alquiler No 27 5 M 14 10000 No Sí 0 Alquiler Sí 0 7 H 15 8000 No Sí 0 Alquiler No 3 2 H
Ejemplo3: definir grupos diferenciados de empleados. ID Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo 1 10000 Sí No 0 Alquiler No 7 15 H 2 20000 No Sí 1 Alquiler Sí 3 3 M 3 15000 Sí Sí 2 Prop Sí 5 10 H 4 30000 Sí Sí 1 Alquiler No 15 7 M 5 10000 Sí Sí 0 Prop Sí 1 6 H 6 40000 No Sí 0 Alquiler Sí 3 16 M 7 25000 No No 0 Alquiler Sí 0 8 H 8 20000 No Sí 0 Prop Sí 2 6 M 9 20000 Sí Sí 3 Prop No 7 5 H 10 30000 Sí Sí 2 Prop No 1 20 H 11 50000 No No 0 Alquiler No 2 12 M 12 8000 Sí Sí 2 Prop No 3 1 H 13 20000 No No 0 Alquiler No 27 5 M 14 10000 No Sí 0 Alquiler Sí 0 7 H 15 8000 No Sí 0 Alquiler No 3 2 H A partir de estos datos, las técnicas de DM podrían generar un modelo de los datos, consistente en un conjunto de grupos de empleados con características similares. Este modelo proporcionaría una descripción "mas significativa" de los datos disponibles.
Ejemplo3: definir grupos diferenciados de empleados. Grupo 1: 5 ejemplos Sueldo : 22600 Casado : No -> 0.8 Sí -> 0.2 Coche : No -> 0.8 Sí -> 0.2 Hijos : 0 Alq/Prop : Alquiler -> 1.0 Sindic. : No -> 0.8 Sí -> 0.2 Bajas/Año : 8 Antigüedad : 8 Sexo : H -> 0.6 M -> 0.4 Grupo 2: 4 ejemplos Sueldo : 22500 Casado : No -> 1.0 Coche : Sí -> 1.0 Hijos : 0 Alq/Prop : Alquiler -> 0.75 Prop -> 0.25 Sindic. : Sí -> 1.0 Bajas/Año : 2 Antigüedad : 8 Sexo : H -> 0.25 M -> 0.75 Grupo 3: 6 ejemplos Sueldo : 18833 Casado : Sí -> 1.0 Coche : Sí -> 1.0 Hijos : 2 Alq/Prop : Alquiler -> 0.17 Prop -> 0.83 Sindic. : No -> 0.67 Sí -> 0.33 Bajas/Año : 5 Antigüedad : 8 Sexo : H -> 0.83 M -> 0.17 GRUPO 1: Solteros, sin hijos y de alquiler. Poco sindicados. Muchas bajas. GRUPO 2: Solteros, sin hijos y de alquiler. Muy sindicados. Pocas bajas. Normalmente mujeres. GRUPO 3: Casados, con hijos y propietarios. Poco sindicados. Normalmente hombres.
Técnicas de Minería de Datos Tareas de Minería de Datos. Modelos de datos Vista minable Tarea de DM Problema Tipo de conocimiento Técnica de DM … Técnica de DM Algoritmo … Algoritmo Modelo de los datos
Tareas de Minería de Datos. Modelos de datos Vista minable Tareas de DM Predictivas Descriptivas Estimación de valores futuros o desconocidos de variables de interés (variable objetivo) a partir de otras variables independientes (predictivas). Identificación de patrones en los datos que los explican o resumen. Ejemplos: 1 y 3 Ejemplos: 2, 4 y 5 Técnicas de Minería de Datos
Tareas de Minería de Datos. Modelos de datos Vista minable Tareas de DM Predictivas Descriptivas Clasificación Regresión Asociación Agrupamiento (clustering) Correlación Técnicas de Minería de Datos
Tareas de Minería de Datos. Modelos de datos Vista minable Dominio de ejemplos: D tipo_ejemplo = {A1:D1, A2:D2, …, An:Dn} ejemplo e = {A1:v1, A2:v2, …, An:vn} / vi?Di e = < v1, v2, …, vn> / vi?Di D = {e: < v1, v2, …, vn> / vi?Di} Técnicas de Minería de Datos
Tareas de Minería de Datos. Modelos de datos Vista minable Tareas de DM Predictivas Descriptivas Clasificación Regresión Asociación Agrupamiento (clustering) Correlación Técnicas de Minería de Datos
Tareas de Minería de Datos. Tareas de DM Predictivas Descriptivas Clasificación Regresión Asociación Agrupamiento (clustering) Correlación Técnicas de Minería de Datos Clasificación Clasificación suave Estimación de probabilidad de clasificación Categorización
Tareas de Minería de Datos. Modelos de datos Vista minable Tareas predictivas. La clasificación: A cada ejemplo del tipo de objeto a clasificar (registro de la base de datos) se le asigna una clase, representada por el valor de un atributo (atributo de clase). El dominio del atributo de clase es discreto, cada valor representa una clase de objeto. Los restantes atributos que sean significativos para determinar la clase, son utilizadas por las técnicas de clasificación para generar funciones (reglas) que permiten determinar la clase de un ejemplo a partir de los valores de sus atributos significativos. El objetivo de la tarea es poder predecir la clase de nuevos ejemplos a partir del valor de sus atributos significativos, utilizando las reglas generadas. Técnicas de Minería de Datos
Tareas de Minería de Datos. Modelos de datos Vista minable Tareas predictivas. La clasificación: Entrada: tipo_ejemplo = {A1:D1, A2:D2, …, An:Dn} D = {e: < v1, v2, …, vn > / vi?Di}: dominio de ejemplos E ? D: conjunto de ejemplos (muestra) S = {c1, c2, …, cm}: m clases, {< e, s >: e?E, s?S}: conjunto de ejemplos etiquetado Salida: ?: E ? S: función clasificador Técnicas de Minería de Datos
Conclusiones Información segura y confiable Se usa como una alternativa para la toma de decisiones en una organización Permite tener de una manera organizada los datos con el fin de poder extraer informes específicos en determinados ciclos de tiempo Brinda una estructura robusta en el almacenamiento de datos