- Introducción
- Data warehousing
- ¿Qué es data mining?
- Los objetivos principales de data mining
- Técnicas de MD
- Etapas principales del proceso de data mining
- Extensiones del data mining
- La forma en que se trabaja con data mining
- Los modelos de data mining
- Conclusiones
- Bibliografía
La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.
Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos.
Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.
Concepto de Data Warehousing (DW)
Es un proceso, no un producto. Es una técnica para consolidar y administrar datos de variadas fuentes con el propósito de responder preguntas de negocios y tomar decisiones, de una forma que no era posible hasta ahora. Consolidar datos desde una variedad de fuentes, dentro del marco conceptual de Data Warehousing es el proceso de Transformación de Datos.
Manejar grandes volúmenes de datos de una forma que no era posible, o no era de costo efectivo, a estos medios se agrupan en Procesamiento y Administración de Datos. Acceder a los datos de una forma más directa, en "el lenguaje del negocio", y analizarlos para obtener relaciones complejas entre los mismos. Estos procesos se engloban en dos categorías: Acceso a los Datos y Descubrimiento o Data Mining.
Estos avances tecnológicos, correctamente organizados e interrelacionados, constituyen lo que se ha dado en llamar un Data Warehouse o Bodega de Datos. La definición más conocida para el DW, fue propuesta por Inmon [MicroSt96] (considerado el padre de las Bases de Datos) en 1992: "Un DW es una colección de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados para soportar necesidades empresariales".
Es el sistema para el almacenamiento y distribución de cantidades masivas de datos. El Data Warehouse analítico resultante puede ser aplicado para mejorar procesos de negocios en toda la organización, en áreas tales como manejo de campañas promocionales, detección de fraudes, lanzamiento de nuevos productos, etc.
El punto de inicio ideal es un data warehouse que contenga una combinación de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores. Información histórica sobre potenciales clientes también provee una excelente base para prospecting. Este warehouse puede ser implementado en una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los datos flexible y rápido.
Características de DW
Según, Bill Inmon, existen generalmente cuatro características que describen un almacén de datos:
1. Orientado al sujeto: los datos se organizan de acuerdo al sujeto en vez de la aplicación, por ejemplo, una compañía de seguros usando un almacén de datos podría organizar sus datos por cliente, premios, y reclamaciones, en lugar de por diferentes productos (automóviles, vida, etc.). Los datos organizados por sujetos contienen solo la información necesaria para los procesos de soporte para la toma de decisiones.
2. Integrados: cuando los datos residen en muchas aplicaciones separados por los distintos entornos operacionales, la descodificación de los datos es a menudo inconsistente. Por ejemplo, en una aplicación, la palabra gender podría codificarse como "m" y "f" en otra como "0" y "1". Cuando los datos fluyen de un entorno operacional a un entorno de almacén de datos o de data warehouse, ellos asumen una codificación consistente, por ejemplo gender siempre se transformaría a "m" y "f".
3. Variación-temporal: el almacén de datos contiene un lugar para guardar datos con una antigüedad de 5 a diez años, o incluso más antiguos, para poder ser usados en comparaciones, tendencias y previsiones. Estos datos no se modificarán.
4. No son inestables: los datos no serán modificados o cambiados de ninguna manera una vez ellos han sido introducidos en el almacén de datos, solamente podrán ser cargados, leídos y/o accedidos.
En 1993, Susan Osterfeldt [MicroSt96] publica una definición que sin duda acierta en la clave del DW: "Yo considero al DW como algo que provee dos beneficios empresariales reales: Integración y Acceso de datos. DW elimina una gran cantidad de datos inútiles y no deseados, como también el procesamiento desde el ambiente operacional clásico".
Objetivos del Data Warehouse
Proveer una visión única de los clientes en toda la empresa
Poner tanta información comercial como sea posible en manos de tantos usuarios diferentes como sea posible
Mejorar el tiempo de espera que insumen los informes habituales
Monitorear el comportamiento de los clientes
Predecir compras de productos
Mejorar la capacidad de respuesta a problemas comerciales
Incrementar la precisión de las mediciones
Aumentar la productividad
Incrementar y distribuir las responsabilidades.
Ventajas y Desventajas del Data Warehouse.
La utilización de Data Warehouse proporciona una serie de ventajas:
Proporciona un gran poder de procesamiento de información.
Permite una mayor flexibilidad y rapidez en el acceso a la información.
Facilita la toma de decisiones en los negocios.
Las empresas obtienen un aumento de la productividad.
Proporciona una comunicación fiable entre todos los departamentos de la empresa.
Mejora las relaciones con los proveedores y los clientes.
Permite conocer qué está pasando en el negocio, es decir, estar siempre enterado de los buenos y malos resultados.
Transforma los datos en información y la información en conocimiento.
Permite hacer planes de forma más efectiva.
Reduce los tiempos de respuesta y los costes de operación.
Resumiendo, el Data Warehouse proporciona una información de gestión accesible, correcta, uniforme y actualizada. Proporciona un menor coste en la toma de decisiones, una mayor flexibilidad ante el entorno, un mejor servicio al cliente y permite el rediseño de los procesos.
Pero los Data Warehouse también tienen algunas desventajas:
Requieren una revisión del modelo de datos, objetos, transacciones y además del almacenamiento.
Tienen un diseño complejo y multidisciplinar.
Requieren una reestructuración de los sistemas operacionales.
Tienen un alto coste.
Requieren sistemas, aplicaciones y almacenamiento específico.
Por último, cabe mencionar la existencia del Data Marts (Mercado de Datos) que es una versión más reducida de un Data Warehouse, a menudo conteniendo información específica de algún departamento, como marketing, finanzas o mantenimiento de la red. Idealmente, el Data Marts debería ser un subconjunto del Data Warehouse, a fin de mantener consistencia en las prácticas de administración de datos corporativos y para mantener la seguridad y la integridad de la información cruda que se está usando. Para las grandes compañías, el Data Marts usualmente contiene una docena de gigabytes de datos. Ahora podemos continuar y dar una explicación de lo que en realidad es Data Mining, a pesar de que en este apartado hemos dado una definición de manera somera.
Forma de trabajo del Data Warehouse (DW)
Extrae la información operacional.
Transforma la operación a formatos consistentes.
Automatiza las tareas de la información para prepararla a un análisis eficiente.
OLAP – Procesamiento Analítico On-Line (On Line Analytic Processing)
Se refiere a aplicaciones de bases de datos orientadas a array que permite a los usuarios ver, navegar, manipular y analizar bases de datos multidimensionales.
Un server multidimensional OLAP permite que un modelo de negocios más sofisticado pueda ser aplicado cuando se navega por el data warehouse. Las estructuras multidimensionales permiten que el usuario analice los datos de acuerdo a como quiera mirar el negocio, por línea de producto, u otras perspectivas claves para su negocio. El server de Data Mining debe estar integrado con el data warehouse y el server OLAP para insertar el análisis de negocios directamente en esta infraestructura. Un avanzado, metadato centrado en procesos define los objetivos del Data Mining para resultados específicos tales como manejos de campaña, prospecting, y optimización de promociones. La integración con el data warehouse permite que decisiones operacionales sean implementadas directamente y monitoreadas.
Sistemas de Data Warehouse y Oltp
Una base de datos para soportar procesos transaccionales en línea (OLTP), puede no ser adecuada para el Data Warehouse ya que ha sido diseñada para maximizar la capacidad transaccional de sus datos y típicamente tiene cientos de tablas la gran mayoría normalizadas. Su diseño también ha sido condicionado por los procesos operacionales que deberá soportar para la óptima actualización de sus datos, normalmente muchas de sus tablas en constantes y continuos cambios. Los sistemas Data Warehouse están orientados a procesos de consultas en contraposición con los procesos transaccionales. Diferencias del Data Warehouse vs Oltp
Los sistemas tradicionales de transacciones y las aplicaciones de Data Warehousing son polos opuestos en cuanto a sus requerimientos de diseño y sus características de operación.
Las aplicaciones de OLTP están organizadas para ejecutar las transacciones para los cuales fueron hechos, como por ejemplo: mover dinero entre cuentas, un cargo o abono, una devolución de inventario, etc. Por otro lado, un Data Warehouse está organizado en base a conceptos, como por ejemplo: clientes, facturas, productos, etc.
Otra diferencia radica en el número de usuarios. Normalmente, el número de usuarios de un Data Warehouse es menor al de un OLTP. Es común encontrar que los sistemas transaccionales son accedidos por cientos de usuarios simultáneamente, mientras que los Data Warehouse sólo por decenas. Los sistemas de OLTP realizan cientos de transacciones por segundo mientras que una sola consulta de un Data Warehouse puede tomar minutos. Otro factor es que frecuentemente los sistemas transaccionales son menores en tamaño a los Data Warehouses, esto es debido a que un Data Warehouse puede estar formado por información de varios OLTP´s.
Existen también diferencia en el diseño, mientras que el de un OLTP es extremadamente normalizado, el de un Data Warehouse tiende a ser desnormalizado. El OLTP normalmente está formado por un número mayor de tablas, cada una con pocas columnas, mientras que en un Data Warehouse el número de tablas es menor, pero cada una de éstas tiende a ser mayor en número de columnas.
Los OLTP son continuamente actualizados por los sistemas operacionales del día con día, mientras que los Data Warehouse son actualizados en batch de manera periódica.
Las estructuras de los OLTP son muy estables, rara vez cambian, mientras las de los Data Warehouses sufren cambios constantes derivados de su evolución. Esto se debe a que los tipos de consultas a los cuales están sujetos son muy variados y es imposible preverlos todos de antemano.
Mejorar la Entrega de Información: información completa, correcta, consistente, oportuna y accesible. Información que la gente necesita, en el tiempo que la necesita y en el formato que la necesita.
Mejorar el Proceso de Toma de Decisiones: Con un mayor soporte de información se obtienen decisiones más rápidas; así también, la gente de negocios adquiere mayor confianza en sus propias decisiones y las del resto, y logra un mayor entendimiento de los impactos de sus decisiones.
Impacto Positivo sobre los Procesos Empresariales: cuando a la gente se le da acceso a una mejor calidad de información, la empresa puede lograr por sí sola:
Eliminar los retardos de los procesos empresariales que resultan de información incorrecta, inconsistente y/o no existente.
Integrar y optimizar procesos empresariales a través del uso compartido e integrado de las fuentes de información.
Eliminar la producción y el procesamiento de datos que no son usados ni necesarios, producto de aplicaciones mal diseñados o ya no utilizados.
El descubrimiento del conocimiento (KDD)
Se define como "La extracción no trivial de información implícita, desconocida y potencialmente útil de los datos". Hay una distinción clara entre el proceso de extracción de datos y el descubrimiento del conocimiento. Bajo sus convenciones, el proceso de descubrimiento del conocimiento toma los resultados tal como vienen de los datos (proceso de extraer tendencias o modelos de los datos) cuidadosamente y con precisión los transforma en información útil y entendible.
Esta información no es típicamente recuperable por las técnicas normales pero es descubierta a través del uso de técnicas de AI.
KDD puede usarse como un medio de recuperación de información, de la misma manera que los agentes inteligentes realizan la recuperación de información en el Web. Nuevos modelos o tendencias en los datos podrán descubrirse usando estas técnicas. KDD también puede usarse como una base para las interfaces inteligentes del mañana, agregando un componente del descubrimiento del conocimiento a una máquina de bases de datos o integrando KDD con las hojas de cálculo y visualizaciones.
Al Descubrimiento de Conocimiento de Bases de Datos (KDD) a veces también se le conoce como minería de datos (Data Mining). Sin embargo, muchos autores se refieren al proceso de minería de datos como el de la aplicación de un algoritmo para extraer patrones de datos y a KDD al proceso completo (pre-procesamiento, minería, post-procesamiento).
El proceso de KDD consiste en usar métodos de minería de datos (algoritmos) para extraer (identificar) lo que se considera como conocimiento de acuerdo a la especificación de ciertos parámetros usando una base de datos junto con pre-procesamientos y post-procesamientos. Se estima que la extracción de patrones (minería) de los datos ocupa solo el 15% – 20% del esfuerzo total del proceso de KDD.
Metas de KDD
Procesar automáticamente grandes cantidades de datos crudos.
Identificar los patrones más significativos y relevantes.
Presentarlos como conocimiento apropiado para satisfacer las metas del usuario.
Técnicas de KDD
Los algoritmos de aprendizaje son una parte integral de KDD. Las técnicas de aprendizaje podrán ser supervisadas o no supervisadas. En general, las técnicas de aprendizaje dirigidas disfrutan de un rango de éxito definido por la utilidad del descubrimiento del conocimiento. Los algoritmos de aprendizaje son complejos y generalmente considerados como la parte más difícil de cualquier técnica KDD.
El descubrimiento de la máquina es uno de los campos más recientes que han contribuido para KDD. Mientras el descubrimiento de la máquina confía solamente en métodos autónomos para el descubrimiento de la información, KDD típicamente combina métodos automatizados con la interacción humana para asegurar resultados exactos, útiles, y entendibles.
Hay muchos métodos diferentes que son clasificados como las técnicas de KDD. Hay métodos cuantitativos, como los probabilísticos y los estadísticos. Hay métodos que utilizan las técnicas de visualización. Hay métodos de clasificación como la clasificación de Bayesian, lógica inductiva, descubrimiento de modelado de datos y análisis de decisión. Otros métodos incluyen la desviación y tendencia al análisis, algoritmos genéticos, redes neuronales y los métodos híbridos que combinan dos o más técnicas.
Debido a las maneras en que estas técnicas pueden usarse y combinarse, hay una falta de acuerdos de cómo estas técnicas deben categorizarse. Por ejemplo, el método de Bayesian puede agruparse lógicamente con los métodos probabilísticos, de clasificación o de visualización. Por causa de la organización, cada método descrito aquí es incluido en el grupo que mejor encaje. Sin embargo, esta selección no implica una categorización estricta.
Método Probabilístico. Esta familia de técnicas KDD utiliza modelos de representación gráfica para comparar las diferentes representaciones del conocimiento. Estos modelos están basados en las probabilidades e independencias de los datos. Estos son útiles para aplicaciones que involucran incertidumbre y aplicaciones estructuradas tal que una probabilidad puede asignarse a cada uno de los "resultados" o pequeña cantidad del descubrimiento del conocimiento. Las técnicas probabilísticas pueden usarse en los sistemas de diagnóstico, planeación y sistemas de control. Las herramientas del probabilidad automatizadas están disponibles en el dominio público y comercial.
Método estadístico. El método estadístico usa la regla del descubrimiento y se basa en las relaciones de los datos. El "algoritmo de aprendizaje inductivo puede seleccionar automáticamente trayectorias útiles y atributos para construir las reglas de una base de datos con muchas relaciones''. Este tipo de inducción es usado para generalizar los modelos en los datos y construir las reglas de los modelos nombrados. El proceso analítico en línea (OLAP) es un ejemplo de un método orientado a la estadística. Las herramientas estadísticamente automatizadas están disponibles en el dominio público y comercial. Método de clasificación. La clasificación es probablemente el método más viejo y mayormente usado de todos los métodos de KDD. Este método agrupa los datos de acuerdo a similitudes o clases. Hay muchos tipos de clasificación de técnicas y numerosas herramientas disponible que son automatizadas.
Método Bayesian de KDD "es un modelo gráfico que usa directamente los arcos exclusivamente para formar una gráfica acíclica". Aunque el método Bayesian usa los medios probabilísticos y gráficos de representación, también es considerado un tipo de clasificación.
Se usan muy frecuentemente las redes de Bayesian cuando la incertidumbre se asocia con un resultado puede expresarse en términos de una probabilidad. Este método cuenta con un dominio del conocimiento codificado y ha sido usado para los sistemas de diagnóstico
Data Marts
Es un pequeño Data Warehouse, para un determinado numero de usuarios, para un arrea funcional, especifica de la compañía. También podemos definir que un Data Marts es un subconjunto de una bodega de datos para un propósito específico. Su función es apoyar a otros sistemas para la toma de decisiones.
Los procesos que conforma el data warehouse son:
Extracción.
Elaboración.
Carga
Explotación.
Componentes del Data Warehouse
Cada día generamos una gran cantidad de información, algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos. Nos damos cuenta de que generamos información cuando registramos nuestra entrada en el trabajo, cuando entramos en un servidor para ver nuestro correo, cuando pagamos con una tarjeta de crédito o cuando reservamos un boleto de avión. Otras veces no nos damos cuenta de que generamos información, como cuando conducimos por una vía donde están contabilizando el número de automóviles que pasan por minuto, cuando se sigue nuestra navegación por Internet o cuando nos sacan una fotografía del rostro al haber pasado cerca de una oficina gubernamental.
¿Con qué finalidad queremos generar información?
Son muchos los motivos que nos llevan a generar información, ya que nos pueden ayudar a controlar, optimizar, administrar, examinar, investigar, planificar, predecir, someter, negociar o tomar decisiones de cualquier ámbito según el dominio en que nos desarrollemos. La información por sí misma está considerada un bien patrimonial. De esta forma, si una empresa tiene una pérdida total o parcial de información provoca bastantes perjuicios. Es evidente que la información debe ser protegida, pero también explotada.
¿Qué nos ha permitido poder generar tanta información?
En los últimos años, debido al desarrollo tecnológico a niveles exponenciales tanto en el área de cómputo como en la de transmisión de datos, ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la información. Sin duda existen cuatro factores importantes que nos han llevado a este suceso:
El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente.
El incremento de las velocidades de cómputo en los procesadores.
Las mejoras en la confiabilidad y aumento de la velocidad en la transmisión de datos.
El desarrollo de sistemas administradores de bases de datos más poderosos.
Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la información en las bases de datos. Podemos decir que algunas empresas almacenan un cierto tipo de datos al que se ha denominado dato-escritura, ya que sólo se guarda (o escribe) en el disco duro, pero nunca se hace uso de él. Generalmente, todas las empresas usan un dato llamado dato-escritura-lectura, que utilizan para hacer consultas dirigidas. Un nuevo tipo de dato al cual se ha llamado dato-escritura-lectura-análisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones. Es necesario contar con tecnologías que nos ayuden a explotar el potencial de este tipo de datos. La cantidad de información que nos llega cada día es tan inmensa que nos resulta difícil asimilarla. Basta con ir al buscador AltavistaÓ y solicitar la palabra information para ver que existen 171.769.416 sitios donde nos pueden decir algo al respecto. Suponiendo que nos tomemos un minuto para ver el contenido de cada página, tardaríamos entonces 326 años en visitarlas todas. Esto es imposible, y, por lo tanto, existe una clara necesidad de disponer de tecnologías que nos ayuden en nuestros procesos de búsqueda y, aún más, de tecnologías que nos ayuden a comprender su contenido.
Como bien sabemos, algunos sistemas producen una cantidad inmensa de datos; estos datos con frecuencia contienen valiosa información que puede resultar muy útil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporación. Las dimensiones de las base de datos grandes (montañas) y sus velocidades de crecimiento, hacen muy difícil para un humano su análisis y la extracción de alguna información importante (oro). Aún con el uso de herramientas estadísticas clásicas esta tarea es casi imposible.
El Data Mining surge como una tecnología que intenta ayudar a comprender el contenido de una base de datos. De forma general, los datos son la materia prima bruta, en el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación del confronto entre la información y ese modelo represente un valor agregado, entonces nos referimos al conocimiento. En la figura 1.1 se ilustra la jerarquía que existe en una base de datos entre dato, información y conocimiento. Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquía. El área interna dentro del triángulo representa los objetivos que se han propuesto. La separación del triángulo representa la estrecha unión entre dato e información, no así entre la información y el conocimiento. El Data Mining trabaja en el nivel superior buscando patrones, comportamientos, agrupaciones, secuencias, tendencias o asociaciones que puedan generar algún modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisión.
Relación entre Dato, Información y conocimiento.
El descubrimiento de conocimiento en base de datos (KDD, de Knowledge Discovery in Databases) combina las técnicas tradicionales con numerosos recursos desarrollados en el área de la inteligencia artificial. En estas aplicaciones el término "Minería de Datos" (Data Mining) ha tenido más aceptación. En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas, no del todo comprendidas y carentes de un soporte teórico formal. Pero en este caso el objetivo es tan valioso, que los resultados prácticos han rebasado a la elegancia académica.
Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de información interesante y potencialmente útiles, inmersos en una gran base de datos en la que se interactúa constantemente.
Data Mining es una combinación de procesos como:
Extracción de datos
Limpieza de datos.
Selección de características.
Algoritmos.
Análisis de resultados.
Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande, y mediante su análisis predicen posibles tendencias o comportamientos futuros entro de una empresa, permitiendo al experto tomar decisiones en los negocios de una forma rápida y utilizando un conocimiento que de otra forma no habría encontrado. Mediante la utilización de estas herramientas se pueden generar nuevas oportunidades de negocio.
Algunas posibilidades que ofrecen estas herramientas son:
Predicción automatizada de tendencias y comportamientos.
Descubrimiento automatizado de modelos desconocidos.
Descubrimiento de anomalías y acciones fraudulentas por parte de clientes.
Este producto esta fuertemente relacionado con análisis estadísticos, el objetivo de generar hipótesis potenciales de interés que son posteriormente verificadas
Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organización.
Otra definición que se puede dar de Data Mining y que es muy común encontrar dice: "Una actividad de extracción cuyo objetivo es el de descubrir hechos contenidos en las bases de datos". En la mayoría de los casos se refiere a un trabajo automatizado. Si hay alguna intervención humana a lo largo del proceso, este no es considerado como minería de datos por parte algunas personas. La palabra descubrimiento está relacionada con el hecho de que mucha de la información valiosa es desconocida con anterioridad. En todo caso, estas técnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto. En cuanto a los hechos escondidos, estos estarán principalmente bajo la forma de reglas las cuales nos ayudarán a entender el modelo del sistema relacionado con los datos observados. Por otra parte, las reglas también pueden ser usadas en la predicción de ciertos estado del sistema (lo que se busca).
Desde un punto de vista académico el término Data Mining es una etapa dentro de un proceso mayor llamado KDD. Lo que en verdad hace el Data Mining es reunir las ventajas de varias áreas como la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos.
El Data Mining es una tecnología compuesta por etapas que integra varias áreas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadísticas, de visualización de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfín de utilerías que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementándose con otra herramienta.
¿Dónde se utiliza Data Mining?
La utilidad de Data Mining se puede dar dentro de los siguientes aspectos:
Sistemas parcialmente desconocidos:
Si el modelo del sistema que produce los datos es bien conocido, entonces no necesitamos de la minería de datos ya que todas las variables son de alguna manera predecibles. Este no es el caso del comercio electrónico, debido a los efectos del comportamiento humano, el clima y de decisiones políticas entre otros. En estos casos habrá una parte del sistema que es conocida y habrá una parte aparentemente de naturaleza aleatoria. Bajo ciertas circunstancias, a partir de una gran cantidad de datos asociada con el sistema, existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo.
Enorme cantidad de datos:
Al contar con mucha información en algunas bases de datos es importante para una empresa encontrar la forma de analizar "montañas" de información (lo que para un humano sería imposible) y que ello le produzca algún tipo de beneficio.
Potente hardware y software:
Muchas de las herramientas presentes en la minería de datos están basadas en el uso intensivo de la computación, en consecuencia, un equipo conveniente y un software eficiente, con el cual cuente una compañía, aumentará el desempeño del proceso de buscar y analizar información, el cual a veces debe vérselas con producciones de datos del orden de los Gbytes/hora (repetimos, algo humanamente imposible). Por ejemplo, las técnicas de Data Mining son utilizadas habitualmente para el análisis y explotación de datos de un Data Warehouse. El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos, datos de seguimiento de clientes, datos externos de mercado, datos sobre la actividad de competidores, etc.
Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo, pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como, ¿cuales clientes tienen mas probabilidad de responder al próximo envío de correo promocional, y por qué? y presentar los resultados en formas de tablas, con gráficas, reportes, texto, hipertexto, etc.
Un ejemplo trivial de minería de datos, es su uso en un departamento de ventas. Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda, el sistema de Data Mining hará una correlación entre ese cliente y las camisas de seda. El departamento de compras mirará la información y realizará envíos de información sobre camisas de seda a ese cliente, o a todos los clientes que sigan ese modelo obtenido. En este caso el sistema de Data Mining es usado para recoger o extraer información nueva sobre los clientes, la cual estaba oculta anteriormente.
El Data Mining también es fundamental en la investigación científica y técnica, como herramienta de análisis y descubrimiento de conocimiento a partir de datos de observación o de resultados de experimentos.
Los objetivos principales de Data Mining
Data Mining persigue ciertos objetivos de manera específica, a saber:
Descripción:
El principal producto del proceso de la minería de datos es el descubrimiento de reglas. Estas mostrarán nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso. Ello enriquecerá el análisis y la descripción de la forma en que trabaja una compañía y ayudará en la planificación y en el diseño de futuros cambios. Es posible que algunas de las reglas descubiertas no puedan ser cambiadas, pero si resulte posible realizar modificaciones apropiadas en la organización con el propósito de mejorar su desempeño.
Predicción (Forecasting):
Una vez descubiertas reglas importantes, estas pueden ser utilizadas pera estimar algunas variables de salida. Puede ser en el caso de secuencias en el tiempo, o bien en la identificación e interrupción a tiempo, de una futura mala experiencia de crédito. En esta tarea, se complementan las técnicas estadísticas tradicionales con aquellas provenientes de la inteligencia artificial. Conceptos adaptativos como los algoritmos genéticos y las redes neuronales, permiten realizar predicciones más acertadas, especialmente en casos de gran complejidad y con relaciones internas.
Aplicaciones de MD
En la actualidad, existe una gran cantidad de aplicaciones, en áreas tales como:
Astronomía: clasificación de cuerpos celestes.
Aspectos climatológicos: predicción de tormentas, etc.
Medicina: caracterización y predicción de enfermedades, probabilidad de respuesta satisfactoria a tratamiento médico.
Industria y manufactura: diagnóstico de fallas.
Mercadotecnia: identificar clientes susceptibles de responder a ofertas de productos y servicios por correo, fidelidad de clientes, selección de sitios de tiendas, afinidad de productos, etc.
Inversión en casas de bolsa y banca: análisis de clientes, aprobación de préstamos, determinación de montos de crédito, etc.
Detección de fraudes y comportamientos inusuales: telefónicos, seguros, en tarjetas de crédito, de evasión fiscal, electricidad, etc.
Análisis de canastas de mercado para mejorar la organización de tiendas, segmentación de mercado (clustering)
Determinación de niveles de audiencia de programas televisivos
Normalización automática de bases de datos
Análisis Preliminar de datos usando Query tools:
El primer paso en un proyecto de data mining sería siempre un análisis de los datos usando query tools, aplicando una consulta SQL a un conjunto de datos, para rescatar algunos aspectos visibles antes de aplicar las técnicas. La gran mayoría de la información (un 80 %) puede obtenerse con SQL. El 20 % restante, más importante, la información oculta requiere técnicas avanzadas.
Este primer análisis en SQL es para saber cual es la distribución de los valores posibles de los atributos. Recién después podemos ver la performance del algoritmo correspondiente.
Técnicas de Visualización:
Estas son buenas para ubicar patrones en un conjunto de datos y puede ser usado al comienzo de un proceso de data mining para tomar un feeling de la calidad del conjunto de datos.
Árbol de Decisión:
Son estructuras en forma de árbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Para poder predecir el comportamiento de un cliente es necesario poder contar con una clasificación previa esto implica una predicción de que un cliente pertenece a cierto grupo de clientes. La complejidad es de n (Log n).
Métodos específicos de árboles de decisión incluyen:
CART Árboles de clasificación y regresión: técnica usada para la clasificación de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cuáles registros darán un cierto resultado. Segmenta un conjunto de datos creando 2 divisiones. Requiere menos preparación de datos que CHAID.
CHAID Detección de interacción automática de Chi cuadrado: técnica similar a la anterior, pero segmenta un conjunto de datos utilizando tests de chi cuadrado para crear múltiples divisiones.
Reglas de Asociación:
Establece asociaciones en base a los perfiles de los clientes sobre los cuales se está realizando el data mining. Las reglas de Asociación están siempre definidas sobre atributos binarios. No es muy complicado generar reglas en grandes bases de datos. El problema es que tal algoritmo eventualmente puede dar información que no es relevante. Data Mining envuelve modelos para determinar patterns a partir de los datos observados. Los modelos juegan un rol de conocimiento inferido. Diciendo cuando el conocimiento representa conocimiento útil o no, esto es parte del proceso de extracción de conocimiento en bases de datos (Knowledge Discovery in Databases-KDD).
Algoritmos Genéticos:
Son técnicas de optimización que usan procesos tales como combinaciones genéticas, mutaciones y selección natural en un diseño basado en los conceptos de evolución.
Redes Bayesianas:
Buscan determinar relaciones causales que expliquen un fenómeno en base a los datos contenidos en una base de datos. Se han usado principalmente para realizar predicción.
Procesamiento Analítico en Línea (OLAP):
Estas herramientas ofrecen un mayor poder para revisar, graficar y visualizar información multidimensional, en características temporales, espaciales o propias. Se valen de lenguajes menos restringidos y estructurados como lo es SQL. Requieren todavía de una alta participación de un usuario humano, pues son interactivas y requieren la guía del experto.
Redes neuronales artificiales:
Son modelos predecibles, no lineales que aprenden a través del entrenamiento y semejan la estructura de una red neuronal biológica.
Método del vecino más cercano:
Una técnica que clasifica cada registro en un conjunto de datos basado en una combinación de las clases de k registro/s más similar/es a él en un conjunto de datos históricos. Algunas veces se llama la técnica del vecino k-más cercano.
Regla de inducción:
La extracción de reglas if-then de datos basados en significado estadístico. La técnica usada para realizar estas hazañas en Data Mining se llama Modelado y es simplemente el acto de construir un modelo en una situación donde usted conoce la respuesta y luego la aplica en otra situación de la cual desconoce la respuesta.
La minería de datos, es un proceso que invierte la dinámica del método científico, dado que se generan hipótesis a partir de los datos colectados. Las técnicas de Minería de datos combinan la tecnología de bases de datos y "data warehousing", con técnicas de aprendizaje automático y de estadística.
La estadística es una herramienta poderosa, y es un elemento crucial en el análisis de datos. Sin embargo, a veces enfrentamos problemas muy serios en la interpretación de sus resultados, dado que no recordamos que estos resultados se aplican a grupos y no a individuos. Estos peligros se ven amplificados en el uso de software de Minería de Datos.
La Minería de Datos es una herramienta explorativa y no explicativa. Es decir, explora los datos para sugerir hipótesis. Es incorrecto aceptar dichas hipótesis como explicaciones o relaciones causa-efecto. Es necesario coleccionar nuevos datos y validar las hipótesis generadas ante los nuevos datos, y después descartar aquellas que no son confirmadas por los nuevos datos.
La Minería de Datos no puede ser experimental. En muchas circunstancias, no es posible reproducir las condiciones que generaron los datos (especialmente si son datos del pasado, y una variable es el tiempo).
Las Bases de Datos proporcionan la infraestructura necesaria para almacenar, recuperar y manipular datos. La construcción y mantenimiento de una Bodega de Datos (Data Warehouse), a pesar de que esta es una Base de Datos, su modo de operar es muy distinto, para soportar transacciones y la actividad de negocio en línea, además hace viable la revisión y el análisis de su información para el apoyo a las decisiones ejecutivas.
Típicamente, el Data Warehouse almacena y resume información sobre transacciones cotidianas a lo largo del tiempo. Puede que contenga información que ya no es posible reproducir del sistema para la operación cotidiana, es información arcaica pero útil por su crónica histórica del funcionar.
Las consultas a la bodega no son tan sistemáticas como las transacciones y usualmente demandan más recursos de cómputo. Resulta incluso conveniente separar los equipos y sistemas de la operación cotidiana de transacciones en línea de la Bodega de Datos.
Algoritmos de Minería de Datos
Página siguiente |