DATA MINING UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA “ANTONIO JOSÉ DE SUCRE” VICE – RECTORADO PUERTO ORDAZ DEPARTAMENTO DE INGENIERÍA INDUSTRIAL SISTEMAS DE INFORMACIÓN
Profesor: MSc. Ing. Turmero Iván Integrantes: (Grupo 2) Camacho, Litzabeth Cortés, Beatriz León, Nataly Sandoval, Luis Sequera, Isandra Díaz, Gelson CIUDAD GUAYANA, MARZO DE 2010
DATA MINING Definición Tradicional "Un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos" (Fayyad y otros, 1996). Otra Definición “La integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión" (Molina y otros, 2001).
Importante El data mining es una tecnología compuesta por etapas que integra varias áreas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadísticas, de visualización de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de data mining muy poderosas que contienen un sinfín de utilerías que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementándose con otra herramienta.
DESCUBRIENDO INFORMACIÓN OCULTA La extracción de información oculta y predecible de grandes bases de datos, es una poderosa tecnología nueva con gran potencial para ayudar a las compañías a concentrarse en la información más importante de sus Bases de Información (Data Warehouse). Las herramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo en los negocios tomar decisiones proactivas y conducidas por un conocimiento acabado de la información (knowledge-driven).
LOS FUNDAMENTOS DEL DATA MINING Las técnicas de Data Mining son el resultado de un largo proceso de investigación y desarrollo de productos. Esta evolución comenzó cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continuó con mejoras en el acceso a los datos, y más recientemente con tecnologías generadas para permitir a los usuarios navegar a través de los datos en tiempo real. Data Mining toma este proceso de evolución más allá del acceso y navegación retrospectiva de los datos, hacia la entrega de información prospectiva y proactiva.
Data Mining está soportado por tres tecnologías que ya están suficientemente maduras:
Recolección masiva de datos Potentes computadoras con multiprocesadores Algoritmos de Data Mining
LOS FUNDAMENTOS DEL DATA MINING
EL ALCANCE DE DATA MINING El nombre de Data Mining deriva de las similitudes entre buscar valiosa información de negocios en grandes bases de datos – por ej.: encontrar información de la venta de un producto entre grandes montos de Gigabytes almacenados – y minar una montaña para encontrar una veta de metales valiosos. Ambos procesos requieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente donde residen los valores.
EL ALCANCE DE DATA MINING Dadas bases de datos de suficiente tamaño y calidad, la tecnología de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades:
Predicción automatizada de tendencias y comportamientos. Descubrimiento automatizado de modelos previamente desconocidos.
LAS TÉCNICAS USADAS EN DATA MINING
Redes neuronales artificiales Arboles de decisión Algoritmos genéticos Método del vecino más cercano Regla de inducción
UNA ARQUITECTURA PARA DATA MINING Este diseño representa una transferencia fundamental desde los sistemas de soporte de decisión convencionales. Más que simplemente proveer datos a los usuarios finales a través de software de consultas y reportes, el server de Análisis Avanzado aplica los modelos de negocios del usuario directamente al warehouse y devuelve un análisis proactivo de la información más relevante. Estos resultados mejoran los metadatos en el server OLAP proveyendo una estrato de metadatos que representa una vista fraccionada de los datos. Generadores de reportes, visualizadores y otras herramientas de análisis pueden ser aplicadas para planificar futuras acciones y confirmar el impacto de esos planes.
PROYECTO DE MINERÍA DE DATOS- PASOS A SEGUIR Los pasos a seguir para la realización de un proyecto de minería de datos son siempre los mismos, independientemente de la técnica específica de extracción de conocimiento usada.
Fases de la minería de datos
Selección y preprocesado de datos Selección de variables Extracción de conocimiento Interpretación y evaluación
ALGORITMOS DE MINERÍA DE DATOS Los algoritmos de minería de datos son quienes forman un modelo una estructura analizando un conjunto de datos en los cuales encuentran una serie de patrones y de tendencias específicas, es decir que encuentran todas las conexiones posibles que pueda haber en toda la información. Los resultados de todas estas conexiones son los que nos proporcionan el modelo en si, la forma que va a tomar la organización de toda esta información por consecuencia tendrá ciertos parámetros de los cuales se sacara los patrones que se puedan procesar y además estadísticas detalladas.
TIPOS DE ALGORITMOS DE MINERÍA DE DATOS
Algoritmos de clasificación Discretos Continuos Algoritmos de segmentación Algoritmos de regresión Algoritmos de asociación Algoritmos de análisis de secuencias
EXTENSIONES DEL DATA MINING Web mining Las herramientas de web mining analizan y procesan estos logs para producir información significativa, por ejemplo, cómo es la navegación de un cliente antes de hacer una compra en línea. Debido a que los contenidos de Internet consisten en varios tipos de datos, como texto, imagen, vídeo, metadatos o hiperligas, investigaciones recientes usan el término multimedia data mining (minería de datos multimedia) como una instancia del web mining (Zaiane y otros, 1998) para tratar ese tipo de datos.
Clasificación de la web mining 1. Web content mining (minería de contenido web). Es el proceso que consiste en la extracción de conocimiento del contenido de documentos o sus descripciones. La localización de patrones en el texto de los documentos, el descubrimiento del recurso basado en conceptos de indexación o la tecnología basada en agentes también pueden formar parte de esta categoría. 2. Web structure mining (minería de estructura web). Es el proceso de inferir conocimiento de la organización del WWW y la estructura de sus ligas.
3. Web usage mining (minería de uso web). Es el proceso de extracción de modelos interesantes usando los logs de los accesos al web.
Página siguiente |