Descargar

Data mining: generalidades


    edu.red DATA MINING Definición Tradicional "Un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos" (Fayyad y otros, 1996). Otra Definición “La integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión" (Molina y otros, 2001).

    edu.red Importante El data mining es una tecnología compuesta por etapas que integra varias áreas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadísticas, de visualización de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de data mining muy poderosas que contienen un sinfín de utilerías que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementándose con otra herramienta.

    edu.red DESCUBRIENDO INFORMACIÓN OCULTA La extracción de información oculta y predecible de grandes bases de datos, es una poderosa tecnología nueva con gran potencial para ayudar a las compañías a concentrarse en la información más importante de sus Bases de Información (Data Warehouse). Las herramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo en los negocios tomar decisiones proactivas y conducidas por un conocimiento acabado de la información (knowledge-driven).

    edu.red LOS FUNDAMENTOS DEL DATA MINING Las técnicas de Data Mining son el resultado de un largo proceso de investigación y desarrollo de productos. Esta evolución comenzó cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continuó con mejoras en el acceso a los datos, y más recientemente con tecnologías generadas para permitir a los usuarios navegar a través de los datos en tiempo real. Data Mining toma este proceso de evolución más allá del acceso y navegación retrospectiva de los datos, hacia la entrega de información prospectiva y proactiva.

    edu.red Data Mining está soportado por tres tecnologías que ya están suficientemente maduras: Recolección masiva de datos Potentes computadoras con multiprocesadores Algoritmos de Data Mining LOS FUNDAMENTOS DEL DATA MINING

    edu.red EL ALCANCE DE DATA MINING El nombre de Data Mining deriva de las similitudes entre buscar valiosa información de negocios en grandes bases de datos – por ej.: encontrar información de la venta de un producto entre grandes montos de Gigabytes almacenados – y minar una montaña para encontrar una veta de metales valiosos. Ambos procesos requieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente donde residen los valores.

    edu.red EL ALCANCE DE DATA MINING Dadas bases de datos de suficiente tamaño y calidad, la tecnología de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades: Predicción automatizada de tendencias y comportamientos. Descubrimiento automatizado de modelos previamente desconocidos.

    edu.red LAS TÉCNICAS USADAS EN DATA MINING Redes neuronales artificiales Arboles de decisión Algoritmos genéticos Método del vecino más cercano Regla de inducción

    edu.red UNA ARQUITECTURA PARA DATA MINING Este diseño representa una transferencia fundamental desde los sistemas de soporte de decisión convencionales. Más que simplemente proveer datos a los usuarios finales a través de software de consultas y reportes, el server de Análisis Avanzado aplica los modelos de negocios del usuario directamente al warehouse y devuelve un análisis proactivo de la información más relevante. Estos resultados mejoran los metadatos en el server OLAP proveyendo una estrato de metadatos que representa una vista fraccionada de los datos. Generadores de reportes, visualizadores y otras herramientas de análisis pueden ser aplicadas para planificar futuras acciones y confirmar el impacto de esos planes.

    edu.red  PROYECTO DE MINERÍA DE DATOS– PASOS A SEGUIR Los pasos a seguir para la realización de un proyecto de minería de datos son siempre los mismos, independientemente de la técnica específica de extracción de conocimiento usada.

    edu.red Fases de la minería de datos Selección y preprocesado de datos Selección de variables Extracción de conocimiento Interpretación y evaluación

    edu.red ALGORITMOS DE MINERÍA DE DATOS Los algoritmos de minería de datos son quienes forman un modelo una estructura analizando un conjunto de datos en los cuales encuentran una serie de patrones y de tendencias específicas, es decir que encuentran todas las conexiones posibles que pueda haber en toda la información. Los resultados de todas estas conexiones son los que nos proporcionan el modelo en si, la forma que va a tomar la organización de toda esta información por consecuencia tendrá ciertos parámetros de los cuales se sacara los patrones que se puedan procesar y además estadísticas detalladas.

    edu.red TIPOS DE ALGORITMOS DE MINERÍA DE DATOS Algoritmos de clasificación Discretos Continuos Algoritmos de segmentación Algoritmos de regresión Algoritmos de asociación Algoritmos de análisis de secuencias

    edu.red EXTENSIONES DEL DATA MINING Web mining Las herramientas de web mining analizan y procesan estos logs para producir información significativa, por ejemplo, cómo es la navegación de un cliente antes de hacer una compra en línea. Debido a que los contenidos de Internet consisten en varios tipos de datos, como texto, imagen, vídeo, metadatos o hiperligas, investigaciones recientes usan el término multimedia data mining (minería de datos multimedia) como una instancia del web mining (Zaiane y otros, 1998) para tratar ese tipo de datos.

    edu.red Clasificación de la web mining 1. Web content mining (minería de contenido web). Es el proceso que consiste en la extracción de conocimiento del contenido de documentos o sus descripciones. La localización de patrones en el texto de los documentos, el descubrimiento del recurso basado en conceptos de indexación o la tecnología basada en agentes también pueden formar parte de esta categoría.   2. Web structure mining (minería de estructura web). Es el proceso de inferir conocimiento de la organización del WWW y la estructura de sus ligas. 3. Web usage mining (minería de uso web). Es el proceso de extracción de modelos interesantes usando los logs de los accesos al web.

    edu.red EXTENSIONES DEL DATA MINING Text mining Estudios recientes indican que el ochenta por ciento de la información de una compañía está almacenada en forma de documentos. Sin duda, este campo de estudio es muy vasto, por lo que técnicas como la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automático, entre otras, apoyan al text mining (minería de texto). En ocasiones se confunde el text mining con la recuperación de la información (Information Retrieval o IR) (Hearst, 1999).

    edu.red INCONVENIENTES DE DATA MINING Grandes volumenes de información y altamente dimensionales, lo que dificulta el hallazgo de patrones. Valores inconsistentes o no existentes en algunos atributos importantes. Estas situaciones deberían haberse corregido en la fase de población y actualización, pero en caso de presentarse se debe tener una política para su manejo. La representación de los resultados no siempre es comprensible para todos los usuarios. Valor estadístico de los patrones hallados.

    edu.red PRODUCTOS PARA MINERÍA DE DATOS Hoy existen una buena cantidad de productos, de diversos fabricantes, para minería de datos, varios de ellos impulsados por universidades reconocidas [Esc96]. Por enumerar algunos, Intelligent Miner (IBM), KDD Project (GTE laboratories), Datamind (Datamind Inc), Saxon (PMSI). Algunos se pueden conseguir en sitios Internet, para las diferentes plataformas: Data Surveyor (www.ddi.nl), IDIS (http://datamine.inter.net/datamine),VisDB (http://www.informatik.uni-halle.de/dbs/Research/VisDB). Este último producto tiene una versión para sistema operativo Linux. El VisDB se ha desarrollado para apoyar la exploración de bancos de datos grandes. Los instrumentos de VisDB implementan severas técnicas visuales, permitiendo trabajar con bodegas de datos de aproximadamente un millón de valores de datos.

    edu.red EJEMPLOS DONDE SE HA VISTO INVOLUCRADO EL DATA MINING En el gobierno A principios del mes de julio de 2002, el director del Federal Bureau of Investigation (FBI), John Aschcroft, anunció que el Departamento de Justicia comenzará a introducirse en la vasta cantidad de datos comerciales referentes a los hábitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una acción. Algunos expertos aseguran que, con esta información, el FBI unirá todas las bases de datos probablemente mediante el número de la Seguridad Social y permitirá saber si una persona fuma, qué talla y tipo de ropa usa, su registro de arrestos, su salario, las revistas a las que está suscrito, su altura y peso, sus contribuciones a la Iglesia, grupos políticos u organizaciones no gubernamentales, sus enfermedades crónicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra, si tomó clases de vuelo o si tiene cuentas de banco abiertas, entre otros. La inversión inicial ronda los setenta millones de dólares estadounidenses para consolidar los almacenes de datos, desarrollar redes de seguridad para compartir información e implementar nuevo software analítico y de visualización.

    edu.red EJEMPLOS DONDE SE HA VISTO INVOLUCRADO EL DATA MINING En la empresa En 2001, las instituciones financieras a escala mundial perdieron más de 2.000 millones de dólares estadounidenses en fraudes con tarjetas de crédito y débito. El Falcon Fraud Manager es un sistema inteligente que examina transacciones, propietarios de tarjetas y datos financieros para detectar y mitigar fraudes. En un principio estaba pensado, en instituciones financieras de Norteamérica, para detectar fraudes en tarjetas de crédito. Sin embargo, actualmente se le han incorporado funcionalidades de análisis en las tarjetas comerciales, de combustibles y de débito. El sistema Falcon ha permitido ahorrar más de seiscientos millones de dólares estadounidenses cada año y protege aproximadamente más de cuatrocientos cincuenta millones de pagos con tarjeta en todo el mundo –aproximadamente el sesenta y cinco por ciento de todas las transacciones con tarjeta de crédito.

    edu.red EJEMPLOS DONDE SE HA VISTO INVOLUCRADO EL DATA MINING En la empresa En 2001, las instituciones financieras a escala mundial perdieron más de 2.000 millones de dólares estadounidenses en fraudes con tarjetas de crédito y débito. El Falcon Fraud Manager es un sistema inteligente que examina transacciones, propietarios de tarjetas y datos financieros para detectar y mitigar fraudes. En un principio estaba pensado, en instituciones financieras de Norteamérica, para detectar fraudes en tarjetas de crédito. Sin embargo, actualmente se le han incorporado funcionalidades de análisis en las tarjetas comerciales, de combustibles y de débito. El sistema Falcon ha permitido ahorrar más de seiscientos millones de dólares estadounidenses cada año y protege aproximadamente más de cuatrocientos cincuenta millones de pagos con tarjeta en todo el mundo –aproximadamente el sesenta y cinco por ciento de todas las transacciones con tarjeta de crédito.

    edu.red Conclusiones Nuestra capacidad para almacenar datos ha crecido en los últimos años a velocidades exponenciales. En contrapartida, nuestra capacidad para procesarlos y utilizarlos no ha ido a la par. Por este motivo, el data mining se presenta como una tecnología de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes volúmenes de datos. Descubrir nuevos caminos que nos ayuden en la identificación de interesantes estructuras en los datos es una de las tareas fundamentales en el data mining.

    edu.red Conclusiones Las herramientas comerciales de Data Mining que existen actualmente en el mercado son variadas y excelentes. Las hay orientadas al estudio del web o al análisis de documentos o de clientes de supermercado, mientras que otras son de uso más general. Su correcta elección depende de la necesidad de la empresa y de los objetivos a corto y largo plazo que pretenda alcanzar. La decisión de seleccionar una solución de Data Mining no es una tarea simple. Es necesario consultar a expertos en el área con vista a seleccionar la más adecuada para el problema de la empresa.

    edu.red Conclusiones El Data Mining se presenta como una tecnología emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Además, no hay duda de que trabajar con esta tecnología implica cuidar un sinnúmero de detalles debido a que el producto final involucra "toma de decisiones".