Descargar

Data mining: minería de datos (PPT)


Partes: 1, 2

    edu.red

    Integrantes: Amundaraín, Nairubis Carati, Edgar Medina, Yenkis Pérez, Carlos Quijada, Edry Rojas, Jonathan Salazar, Higmarly Suta, Danny Valdéz, Magalys

    UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA“ ANTONIO JOSÉ DE SUCRE ”VICE-RECTORADO PUERTO ORDAZDEPARTAMENTO DE INGENIERÍA INDUSTRIALSISTEMAS DE INFORMACIÓN UNEXPO CIUDAD GUAYANA, JULIO 2009 DATA MINING: MINERÍA DE DATOS Profesor: MSc. Ing. Iván Turmero

    edu.red

    Data mining INTRODUCCIÓN El conocimiento dentro de una organización es importante en la medida en que puede ayudar a conocer y comprender el comportamiento de ella misma y del entorno y favorecer la toma de decisiones. Gracias a la minería de datos la información oculta en las bases de datos puede ser traída a la superficie. El nombre “minería de datos" -Data Mining, en el inglés original- viene de las similitudes entre la búsqueda de información de gran valor para el negocio en grandes bases de datos y la minería en las venas de oro en las montañas. En el nuevo mundo tecnológico, la potencia de los equipos informáticos y el desarrollo de software han permitido la creación de grandes bases de datos de clientes, en las que la empresa puede registrar, y lo hace, todas las operaciones que estos realizan. Toda la información es almacenada en grandes bases de datos

    edu.red

    Data mining La Minería de Datos La Minería de Datos (MD) aparece en los años 80 como una oportunidad para las empresas: la de tratar con volúmenes masivos de datos recogidos para extraer de ellos información sobre los clientes que resultara útil en proyectos de marketing. Evolución Definición La MD es una disciplina que proporciona herramientas para "aprender de los datos", convirtiendo los datos en información y conocimiento. Es una etapa crucial de un proceso más complejo denominado KDD (Knowledge Discovery in Databases, 1989), "descubrimiento de conocimiento en bases de datos" Complemento

    edu.red

    Data mining Un KDD, SU ESTRUCTURA

    edu.red

    Data mining El proceso de descubrimiento de conocimiento en bases de datos involucra varios pasos: Entender el dominio de aplicación, el conocimiento relevante a usar y las metas del usuario.

    2. Seleccionar el conjunto de datos y enfocar la búsqueda en subconjuntos de variables o muestras de datos donde realizar el proceso de descubrimiento.

    3. Filtrar (limpiar) y pre-procesar datos, diseñando una estrategia adecuada para manejar ruido, valores incompletos, secuencias de tiempo, etc.

    4. Reducir datos y proyecciones para disminuir el número de variables a considerar.

    5. Seleccionar la tarea de descubrimiento a realizar, por ejemplo: clasificación, agrupamiento, regresión, etc.

    6. Seleccionar el o los algoritmos a utilizar.

    7. Llevar a cabo el proceso de minería de datos.

    8. Interpretar los resultados y posiblemente regresar a algún paso anterior. Esto puede involucrar repetir el proceso, quizás con otros datos, otros algoritmos, otras metas y otras estrategias.

    9. Incorporar el conocimiento descubierto al sistema (normalmente para mejorarlo) lo cual puede incluir resolver conflictos potenciales con el conocimiento existente.

    edu.red

    Data mining Métodos de la Minería de Datos supervisados no supervisados Incluyen fundamentalmente procedimientos de clasificación o análisis discriminante, regresión y predicción, Se encuentran procedimientos de análisis factorial y de clustering. El término cluster se aplica a los conjuntos o conglomerados de computadoras construidos mediante la utilización de componentes de hardware comunes y que se comportan como si fuesen una única computadora

    edu.red

    Data mining Uso de la Minería de Datos

    Las aplicaciones de la MD son muy numerosas y es un área en expansión: desde el más clásico análisis de la "cesta de la compra", hasta la investigación del genoma El web mining, El text mining La bioinformática Estudio de la pérdida de clientes. SE APLICA EN

    edu.red

    Data mining Análisis de dependencias Identificación de clases (agrupamiento de registros en clases) Descripción de conceptos Detección de desviaciones, casos extremos o anomalías Las tareas principales en la minería de datos son: La dependencia puede ser probabilística, puede definir una red de dependencias o puede ser funcional. Identifica un conjunto finito de categorías o clusters que describen los datos (pueden ser exhaustivas y mutuamente exclusivas o jerárquicas y con superposiciones). Se resume un cierto patrón. La descripción puede ser característica (qué registros son comunes entre clases) o discriminatoria (cómo difieren las clases). Detectar los cambios más significativos en los datos con respecto a valores pasados o normales

    edu.red

    Data mining las componentes básicas de los métodos de minería son: (Gp:) Evaluación del modelo: En cuanto a predictibilidad, se basa en técnicas de validación cruzada (cross validation); en cuanto a calidad descriptiva del modelo se basan en principios como el de máxima verosimilitud (maximum likelihood) o en el principio de descripción mínima o MDL (minimum description length) (Gp:) Lenguaje de representación del modelo: Es muy importante que se sepan las suposiciones y restricciones en la representación empleada (Gp:) Método de búsqueda: Se puede dividir en búsqueda de parámetros de búsqueda del modelo, y determina los criterios que se siguen para encontrar los modelos (hipótesis)

    edu.red

    Data mining técnicas más comúnmente empleadas en la minería de datos son: técnicas Árbol de decisión Método de clasificación y regresiones no-lineales Métodos basados en ejemplos prototípicos Modelos gráficos de dependencias probabilísticas Modelos relacionales

    edu.red

    Data mining Métodos de hacer minería de datos. Sin algoritmo de aprendizaje: Consultas (SQL)

    Procesamiento analítico en línea (OLAP)

    Análisis estadístico (Correlación, regresiones,…)

    Nuevos algoritmos: Inducción de reglas de asociación

    Inducción de clasificadores bayesianos

    Con algoritmo de aprendizaje: Redes neuronales y algoritmos genéticos

    Inducción de árboles y reglas

    edu.red

    Data mining Ejemplos de aplicaciones de la minería de datos en internet

    edu.red

    Data mining Ejemplos de aplicaciones de la minería de datos en negocios, juegos ciencia e ingeniería

    edu.red

    Data mining Ejemplos de aplicaciones de la minería de datos en la medicina

    edu.red

    Data mining Una arquitectura para Data Mining Deben estar totalmente integradas con el data warehouse así como con herramientas flexibles e interactivas para el análisis de negocios. Varias herramientas de Data Mining actualmente operan fuera del warehouse, requiriendo pasos extra para extraer, importar y analizar los datos. Además, cuando nuevos conceptos requieren implementación operacional, la integración con el warehouse simplifica la aplicación de los resultados desde Data Mining. El Data warehouse analítico resultante puede ser aplicado para mejorar procesos de negocios en toda la organización, en áreas tales como manejo de campañas promocionales, detección de fraudes, lanzamiento de nuevos productos, etc.

    edu.red

    Data mining Ejemplo del data warehouse

    Partes: 1, 2
    Página siguiente