Descargar

Principios de Data Mining

Enviado por goodlafa


Partes: 1, 2

    1. Resumen
    2. Panorama general de data mining
    3. La forma en que se trabaja con Data Mining
    4. Aplicaciones de Data Mining
    5. Extensiones de Data Mining
    6. Conclusiones y perspectivas
    7. Referencias

    RESUMEN

    En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos, debido básicamente al gran poder de procesamiento de las máquinas como a su bajo costo de almacenamiento. Sin embargo, dentro de estas enormes masas de datos existe una gran cantidad de información "oculta", de gran importancia estratégica, a la que no se puede acceder por las técnicas clásicas de recuperación de la información.

    El descubrimiento de esta información "oculta" es posible gracias a la Minería de Datos (Data Mining), que entre otras sofisticadas técnicas aplica la inteligencia artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creación de modelos, es decir, representaciones abstractas de la realidad, pero es el descubrimiento del conocimiento (KDD, por sus siglas en inglés) que se encarga de la preparación de los datos y la interpretación de los resultados obtenidos, los cuales dan un significado a estos patrones encontrados.

    Así el valor real de los datos reside en la información que se puede extraer de ellos, información que ayude a tomar decisiones o mejorar nuestra comprensión de los fenómenos que nos rodean. Hoy, más que nunca, los métodos analíticos avanzados son el arma secreta de muchos negocios exitosos.

    Empleando métodos analíticos avanzados para la explotación de datos, los negocios incrementan sus ganancias, maximizan la eficiencia operativa, reducen costos y mejoran la satisfacción del cliente.

    El presente trabajo enfatiza el uso del Data Mining para el descubrimiento del conocimiento y su uso predominante en nivel empresarial, a fin de contribuir en la toma de decisiones tácticas y estratégicas en una organización proporcionando un sentido automatizado para la generación de conocimiento.

    Vimos cual es la relación entre Data Mining y un Data Warehouse, conocimos lo más relevante sobre el proceso de Data Warehousing y como esta inmerso el Data Mining sobre su arquitectura. Así mismo, presentamos algunas fases generales y otras un poco más específicas sobre como implementar un proyecto Data Mining.

    También conocimos cuales son las diferencias entre Data Mining y los procesos de estadística, a pesar de que son ramas con notables diferencias, ambas pueden complementarse en sus procesos de toma de decisiones y presentación de resultados.

    Se incluyeron aplicaciones de Data Mining en varias áreas además de la empresarial y se da a conocer de forma muy general el alcance que tiene el utilizar un proceso de este tipo. Además, hablamos de algunas herramientas de distribución libre y algunas comerciales que son empleadas para emprender proyectos de Data Mining.

    Conocimos dos extensiones de Data Mining, Web Mining y Text Mining, finalmente dimos algunos puntos de vista, comentarios y opiniones sobre lo que es Data Mining y lo que se espera de esta tecnología en los próximos años.

    INTRODUCCIÓN.

    Desde épocas remotas la humanidad se ha preocupado por la creación de bienes con el mínimo de recursos. Distintos pueblos y en distintos períodos se practicaban la previsión, planeación y organización de grupos para ejercitar diversas actividades (entre ellas la pesca, agricultura, el comercio, la guerra, etc.). En años más recientes durante la revolución industrial se pusieron en práctica ideas que sirvieron para la creación de la administración, ya que durante ese tiempo se pensó en la manera de producir más con menos recursos. A partir de ese momento precursores e idealistas fueron sentando las bases para la creación de la administración convirtiéndola en una ciencia. La humanidad ha utilizado varias formas para llevar a cabo transacciones de los bienes, tal es el caso de los antiguos pueblos al utilizar monedas de metal con diferentes insignias, descripciones y denominaciones para el intercambio de artículos o servicios.

    Todo esto nos lleva a decir que es necesario conocer las herramientas y hacer buen uso de ellas para que una empresa pueda evaluar planes, decisiones, políticas, procedimientos y en general todo lo concerniente a ella, entre estas herramientas podemos hablar de: herramientas contables, financieras, matemáticas, economía y de información.

    El mundo experimenta cambios fundamentales. Los continuos avances en tecnología de computadoras y comunicaciones tienen un fuerte impacto sobre la forma en que las personas trabajan. La tecnología y las expectativas de las personas que la utilizan están modificando gradualmente las características de los sistemas de información. Actualmente la economía de muchas empresas y países está basada en la información, más en la tecnología de sistemas de información que sobre las máquinas y productos no relacionados con ella. El desarrollo de los sistemas de información juega en este tiempo un papel muy valioso dentro de las organizaciones. En la era industrial lo más importante era el uso del capital y recursos tangibles para generar nuevos productos. Actualmente los recursos básicos son las ideas y el uso de información. El empleo estratégico de la información continuará creando en todas las empresas y organizaciones nuevas oportunidades.[13]

    Para desarrollar un sistema de información se necesita tecnología y gente, desde los usuarios de la información, pasando por los operadores, capturistas de datos y analistas de sistemas, hasta llegar a los niveles directivos de toda la organización. Los primeros programadores de computadoras desarrollaban aplicaciones que satisfacían vagamente los requerimientos de información de los usuarios finales. Ahora, gracias a las herramientas de hardware y software con las que se cuenta es mucho más fácil obtener la información necesaria y a tiempo. Una de estas herramientas son los Sistemas Administradores de Bases de Datos(DBMS, por sus siglas en inglés), pero vayamos más haya, ¿qué sucedería si adoptamos herramientas o técnicas de bases de datos que "nos digan qué hacer" según las información que ellas presentan?, esto nos conduce a hablar de Data Mining o Minería de Datos.

    Mientras que la innovación y la originalidad son habilidades fundamentales para la supervivencia de las empresas, su éxito y prosperidad depende también de decisiones eficientes y competitivas que deben ser tomadas en cortos intervalos de tiempo. Para tomar decisiones, es fundamental contar con información de calidad. Hoy en día, el nivel gerencial cuenta con una eficaz herramienta para lograr ese objetivo: las técnicas de Data Mining.

    Con respecto a los nuevos usos de las bases de datos, el Data Mining aparece como uno de los más prometedores, unido y fuertemente relacionado con los problemas asociados a los grandes almacenes de datos llamados Data Warehouses. La relación entre el costo de los ordenadores y la atención humana ha cambiado sustancialmente. El recurso más precioso es el factor humano y los ordenadores deben potenciarlo. Esto plantea una nueva filosofía de acceso a la información donde los ordenadores deben analizar los datos, resumirlos, organizarlos y resolver cuestiones mucho más complejas que las actuales, ofreciendo al usuario la información que realmente le interesa. Este proceso, como se verá a lo largo de este trabajo, esta muy ligado a cuestiones de Data Mining y Data Warehause.

    Por el momento solo diremos que Data Mining es la integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisiones, en el transcurso de este trabajo detallaremos esto y será de una forma más comprensible. Las técnicas de Data Mining son el resultado de un largo proceso de investigación y desarrollo de productos. Esta evolución comenzó cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continuó con mejoras en el acceso a los datos, y más recientemente con tecnologías generadas para permitir a los usuarios navegar a través de los datos en tiempo real. Data Mining toma este proceso de evolución más allá del acceso y navegación retrospectiva de los datos, hacia la entrega de información prospectiva y proactiva. Data Mining está listo para su aplicación en la comunidad de negocios porque está soportado por tres tecnologías que ya están suficientemente maduras:

    • Recolección masiva de datos.
    • Potentes computadoras con multiprocesadores.
    • Algoritmos de Data Mining.

    Las bases de datos comerciales están creciendo a un ritmo sin precedentes. Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontró que el 19% de los que contestaron están por encima del nivel de los 50 Gigabytes. En algunas industrias, tales como ventas al por menor (retail), estos números pueden ser aún mayores. MCI Telecommunications Corp. cuenta con una base de datos de 3 terabytes + 1 terabyte de índices y overhead corriendo en MVS sobre IBM SP2. La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma más costo-efectiva con tecnología de computadoras con multiprocesamiento paralelo. Los algoritmos de Data Mining utilizan técnicas que han existido por lo menos desde hace 10 años, pero que sólo han sido implementadas recientemente como herramientas maduras, confiables, entendibles que consistentemente son más performantes que métodos estadísticos clásicos.

    En la evolución desde los datos de negocios a información de negocios, cada nuevo paso se basa en el previo. Por ejemplo, el acceso a datos dinámicos es crítico para las aplicaciones de navegación de datos (drill through applications), y la habilidad para almacenar grandes bases de datos es crítica para Data Mining.

    Los componentes esenciales de la tecnología de Data Mining han estado bajo desarrollo por décadas, en áreas de investigación como estadísticas, inteligencia artificial y aprendizaje de máquinas. Hoy, la madurez de estas técnicas, junto con los motores de bases de datos relacionales de alta performance, hicieron que estas tecnologías fueran prácticas para los entornos de Data Warehouse actuales.

    La idea de Data Mining no es nueva. Desde los años sesenta los estadísticos manejaban términos como Data Fishing, Data Mining o Data Archaeology con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido. A principios de los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de Data Mining y KDD (Knowledge Discovery in Databases, Descubrimiento de Conocimiento en Bases de Datos). A finales de los años ochenta sólo existían un par de empresas dedicadas a esta tecnología; en 2002 ya había más de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones. Las listas de discusión sobre este tema las forman investigadores de más de ochenta países. Esta tecnología ha sido un buen punto de encuentro entre personas pertenecientes al ámbito académico y al de los negocios.[20]

    El presente trabajo tiene como finalidad dar a conocer una perspectiva general acerca de todo lo referente a la teoría de Data Mining, existen técnicas de implantación de Data Mining, algoritmos, reglas, etc., de las cuales no daremos mayor detalle, ya que no se encuentran como un objetivo de este documento, solo se mencionarán como la base teórica de la Minería de Datos. Lo que sí perseguimos de manera específica es dejar en claro qué es el concepto de Data Mining, sus expectativas o finalidades, dar a conocer sus cimientos y a qué nos llevan todos ellos, sus posibles aplicaciones y cómo se esta usando actualmente en algunas áreas, principalmente en el nivel empresarial. Aquí cabe mencionar que Data Mining es un proceso utilizado frecuentemente en macro empresas, sin embargo, también es utilizado en las llamadas Pymes (Pequeñas Y Medianas EmpresaS) y además a nivel científico, aunque con menor frecuencia, es por ello que nos hemos enfocado sobre todo a la utilización de dicho proceso en las empresas grandes y cómo es que funciona en ellas, aún así, creímos conveniente introducir algunos ejemplos de su uso en otros entornos.

    El primer capítulo, Panorama general de Data Mining comienza con un ejemplo introductorio para dar una idea general del por qué es necesario utilizar Data Mining en ciertos casos, esto nos lleva a dar un paso previo antes de conocer exactamente qué es Data Mining, Data Warehouse: un paso antes de Data Mining nos menciona qué relación hay entre Data Warehouse y Data Mining, es importante entender este concepto ya que podríamos decir que es una de las principales bases de la Minería de Datos, finalmente el capítulo nos dice lo que en realidad es Data Mining, sus objetivos y algunas formas generales de su utilización.

    La forma en qué trabaja Data Mining, el capítulo número dos, menciona, de forma muy general como es que está constituido Data Mining, cuál es su arquitectura, la forma en que se implementa y las fases que se siguen para una buena implantación de un proyecto de Data Mining, como bien lo hemos mencionado anteriormente, este no es un trabajo para describir detalladamente las técnicas de la Minería de Datos, por ello cabe aclarar que este capítulo tiene un enfoque teórico básico.

    Los dos primeros capítulos nos sirven para entender básicamente cuáles podrían ser las aplicaciones de Data Mining, el tercer capítulo Aplicaciones de Data Mining nos da varios ejemplos de dónde y cómo puede ser utilizado este proceso y cuáles son sus ventajas en estas áreas de aplicación (principalmente en nivel empresarial).

    El capítulo número cuatro, Extensiones de Data Mining, abordamos dos temas complementarios que también se utilizan como procesos de Data Mining, a saber, el Web Mining y el Text Mining. Estos temas también los podríamos ver como una aplicación de Data Mining, sin embargo, los hemos colocado en un capítulo aparte ya que están considerados como un campo diferente, esto es, aplicaciones vistas como un meta Data Mining.

    Finalmente, el último capítulo, Conclusiones y perspectivas, damos nuestras conclusiones y algunos puntos de vista particulares, mencionamos cuáles son las oportunidades que existen para trabajar en proyectos de este tipo y qué es lo que se espera de Data Mining en los próximos años.

    Hemos incluido también un Resumen de todo lo abordado durante nuestro documento que contempla los aspectos más importantes aquí tratados.

    En la bibliografía podrá encontrar las direcciones http de donde se tomaron muchos de los aspectos mencionados en el transcurso de este trabajo; cuando coloquemos un número, por ejemplo [2], al final de un párrafo o cualquier sentencia, estamos haciendo referencia al número de artículo de internet mencionado en la bibliografía de donde fue tomado dicho párrafo o sentencia.

    CAPITULO I

    PANORAMA GENERAL DE DATA MINING.

    En este capítulo abordamos los conceptos fundamentales relacionados con Data Mining que nos ayudarán a tener, sobre todo, una idea general de él y además nos auxiliarán para entender los siguientes capítulos. Comenzamos con un ejemplo introductorio en la sección 1.1, Ejemplo de un problema asociado a Data Mining donde pretendemos dar a conocer una aplicación muy simple de Data Mining. Continuamos con el apartado 1.2, Data Warehouse: Un paso antes de Data Mining ya que creemos conveniente tener las nociones adecuadas de este tema que se relaciona fuertemente con Data Mining y del cuál haremos mención en el resto de este trabajo. Finalmente, en la sección 1.3, ¿Qué es Data Mining? explicamos de la forma que creímos útil el concepto real de Data Mining, sus objetivos y una forma breve de cómo y dónde se trabaja con él.

    1.1. Ejemplo de un problema asociado a Data Mining. [18]

    Para poder generar una idea general del significado y aplicación de Data Mining, consideremos el siguiente problema:

    Suponga que usted es el gerente de mercadeo para una compañía de telefonía celular. El problema considera lo siguiente:

    • La deserción de clientes es muy alta.
    • La producción(después de que el contrato expira) es del 40%.
    • Los clientes reciben un teléfono de regalo con el contrato.
    • Usted paga una comisión de ventas por contrato.
    • Se le da un teléfono nuevo a cada persona cuyo contrato ha expirado, lo cual es muy caro y por ende poco rentable para la compañía.
    • Traer de regreso a un cliente después de que se va es difícil y caro.

    1.1.1. Posible solución al problema de ejemplo.

    • Se debe predecir qué clientes abandonarán la compañía tres meses antes de que el contrato expire.
    • Si queremos conservar a un cliente que creamos abandonará la empresa, se le debería ofrecer un nuevo teléfono.
    • No hay que prestarle atención a los clientes que tienen altas posibilidades de quedarse en la empresa.
    • Si hay clientes que no deseamos conservar, simplemente no hacemos nada.

    Pues bien, es muy fácil pretender hacer todo lo mencionado antes, pero ahora la pregunta es ¿cómo lo hacemos?. No podemos tomar decisiones a la ligera, ni tomar medidas de las cuales estamos seguros que fallarán, por ejemplo, suena absurdo, en cuestiones como éstas, recurrir a la lectura del Tarot. La solución debe basarse en algo más formal y coherente y una de esas alternativas es Data Mining.

    1.1.2. Solución del problema ejemplo a través de Data Mining.

    La solución que puede dar Data Mining al ejemplo del problema mencionado en esta sección considera lo siguiente:

    • Interactuar dinámicamente con el cliente.
    • Trabajar hacia delante y no hacia atrás.
    • Mejorar la calidad de la interacción.
    • ¿El cliente quiere interactuar?
      • La línea de ganancias se salva.
    • Optimizar el tiempo de interacción.
      • Aumentar el valor del cliente constantemente.
      • Aumentar el valor de vida del cliente.

    En esta sección hemos visto solo un ejemplo introductoria, en las secciones subsecuentes trataremos otros casos e iremos explicando como es que Data Mining ofrece soluciones a problemas de empresas.

    1.2. Data Warehouse: Un paso antes de Data Mining.

    Antes de dar a conocer claramente lo que significa Data Mining es preciso dejar en claro lo que es un Data Warehouse que en principio lo podemos ver como un concepto que esta antes de Data Mining y es la base de este (aunque no siempre es así), por ello el objetivo de esta sección es dar una idea general a este concepto, no entraremos en muchos detalles, pero daremos a conocer lo más relevante para que en las secciones siguientes, cuando hablemos de Data Warehouse o Data Warehousing no haya dudas sobre lo que nos estamos refiriendo.

    Las Bases de Datos (BD) de una empresa utilizan los ordenadores como medio para organizar sus datos de forma que sean comprensibles para las personas. Este proceso es conocido como Data Warehousing. La comprensión de los datos almacenados es esencial para cualquier organización, ya que constituye un elemento básico en la toma de decisiones.

    Un Data Warehouse es un almacén o repositorio de datos categorizados, que concentra un gran volumen de información de interés para toda una organización, la cual se distribuye por medio de diversas herramientas de consulta y de creación de informes orientadas a la toma de decisiones. El objetivo del Data Warehouse (DW) es agrupar los datos con el propósito de facilitar su posterior análisis, de forma que sean fáciles de acceder y, posteriormente, analizar información sobre la propia empresa. A este tipo de datos se les conoce como informativos. Los sistemas que manejan estos datos se denominan OLAP (Online Analytical Processing). Existe muchas definiciones formales de DW de distintos autores, pero una de las mas famosas puede ser la dada por Inmon en 1992: Un Data Warehouse es una colección de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados para soportar necesidades empresariales.

    Los Data Warehouses a menudo almacenan gran cantidad de información, la cual está a veces subdividida en pequeñas unidades lógicas. Periódicamente, se importan estos datos de otros sistemas de información dentro del Data Warehouse, para realizar sobre ellos un procesamiento posterior. Un Data Warehouse se diferencia de una Base de Datos operacional de una empresa, diremos que un Data Warehouse puede derivarse de la Base de Datos corporativa, mediante la importación de información, pero el DW no es esa BD operacional.[7]

    Muchos de los datos de una empresa se utilizan como soporte a los negocios, por eso a este tipo de datos se les denomina operacionales. Los sistemas usados con el fin de recogerlos reciben el nombre de OLTP (Online Transaction Processing).[10]

    Las principales características o propiedades de un DW son las siguientes:

    • El DW está orientado a la toma de decisiones. Un buen diseño de la base de datos favorece el análisis y la recuperación de datos para obtener una ventaja estratégica y para facilitar las decisiones de marketing.
    • El DW almacena datos categorizándolos o estructurándolos de forma que favorezcan el análisis de los datos y puedan proporcionar análisis históricos.
    • El DW no está orientado a procesos relacionados con la operativa de la empresa, es decir, que solo esta destinado a funcionar como un "almacén de datos".
    • El DW está preparado para ser explotado mediante herramientas específicas que permiten la extracción de información significativa y patrones de comportamiento que permanecen ocultos en un enorme repositorio de datos. Esta explotación de los datos se suele realizar con herramientas de Data Mining.

    1.2.1. Software para un Data Warehouse.[10]

    La información estratégica se almacena en Gigabytes(tal vez más) de datos de marketing. En este caso se necesita software especializado que permita capturar los datos relevantes en forma rápida. El software no debería limitarse únicamente al acceso a los datos, sino también, al análisis significativo de los datos, esto es, transformar los datos de la información cruda o no procesada, en información útil para la empresa.

    El software o herramientas de negocios inteligentes se colocan sobre la plataforma Data Warehousing y proveen este servicio. Debido a que son el punto principal de contacto entre la aplicación del depósito y la gente que lo usa, estas herramientas pueden constituir la diferencia entre el éxito o fracaso de un depósito.

    Las herramientas de negocio inteligentes se han convertido en los sucesores de los sistemas de soporte de decisión, pero tienen un alcance más amplio. No solamente ayudan en las decisiones de soporte sino, en muchos casos, estas herramientas soportan muchas funciones operacionales y de misión-crítica de la compañía. Sin embargo, estos productos no son infalibles ya que sólo se consigue el máximo provecho del Data Warehouse, si eligen las herramientas adecuadas a las necesidades de cada usuario final.

    Una de estas herramientas es Data Mining, sin embargo, hay otras que no mencionaremos ya que se encuentran fuera de los objetivos de este trabajo. El proceso de Data Mining extrae los conocimientos guardados o información predictiva desde el Data Warehouse sin requerir pedidos o preguntas específicas. Data Mining usa algunas de las técnicas de computación más avanzadas para generar modelos y asociaciones como redes neurales, detección de desviación, modelado predictivo y programación genética.

    1.2.2. Ventajas y Desventajas del Data Warehouse.

    La utilización de Data Warehouse proporciona una serie de ventajas:

    • Proporciona un gran poder de procesamiento de información.
    • Permite una mayor flexibilidad y rapidez en el acceso a la información.
    • Facilita la toma de decisiones en los negocios.
    • Las empresas obtienen un aumento de la productividad.
    • Proporciona una comunicación fiable entre todos los departamentos de la empresa.
    • Mejora las relaciones con los proveedores y los clientes.
    • Permite conocer qué está pasando en el negocio, es decir, estar siempre enterado de los buenos y malos resultados.
    • Transforma los datos en información y la información en conocimiento.
    • Permite hacer planes de forma más efectiva.
    • Reduce los tiempos de respuesta y los costes de operación.

    Resumiendo, el Data Warehouse proporciona una información de gestión accesible, correcta, uniforme y actualizada. Proporciona un menor coste en la toma de decisiones, una mayor flexibilidad ante el entorno, un mejor servicio al cliente y permite el rediseño de los procesos.

    Pero los Data Warehouse también tienen algunas desventajas:

    • Requieren una revisión del modelo de datos, objetos, transacciones y además del almacenamiento.
    • Tienen un diseño complejo y multidisciplinar.
    • Requieren una reestructuración de los sistemas operacionales.
    • Tienen un alto coste.
    • Requieren sistemas, aplicaciones y almacenamiento específico.

    Por último, cabe mencionar la existencia del Data Marts (Mercado de Datos) que es una versión más reducida de un Data Warehouse, a menudo conteniendo información específica de algún departamento, como marketing, finanzas o mantenimiento de la red. Idealmente, el Data Marts debería ser un subconjunto del Data Warehouse, a fin de mantener consistencia en las prácticas de administración de datos corporativos y para mantener la seguridad y la integridad de la información cruda que se está usando. Para las grandes compañías, el Data Marts usualmente contiene una docena de gigabytes de datos. Ahora podemos continuar y dar una explicación de lo que en realidad es Data Mining, a pesar de que en este apartado hemos dado una definición de manera somera.

    1.3. ¿Qué es Data Mining?[14]

    Cada día generamos una gran cantidad de información, algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos. Nos damos cuenta de que generamos información cuando registramos nuestra entrada en el trabajo, cuando entramos en un servidor para ver nuestro correo, cuando pagamos con una tarjeta de crédito o cuando reservamos un boleto de avión. Otras veces no nos damos cuenta de que generamos información, como cuando conducimos por una vía donde están contabilizando el número de automóviles que pasan por minuto, cuando se sigue nuestra navegación por Internet o cuando nos sacan una fotografía del rostro al haber pasado cerca de una oficina gubernamental.

    ¿Con qué finalidad queremos generar información? Son muchos los motivos que nos llevan a generar información, ya que nos pueden ayudar a controlar, optimizar, administrar, examinar, investigar, planificar, predecir, someter, negociar o tomar decisiones de cualquier ámbito según el dominio en que nos desarrollemos. La información por sí misma está considerada un bien patrimonial. De esta forma, si una empresa tiene una pérdida total o parcial de información provoca bastantes perjuicios. Es evidente que la información debe ser protegida, pero también explotada.

    ¿Qué nos ha permitido poder generar tanta información? En los últimos años, debido al desarrollo tecnológico a niveles exponenciales tanto en el área de cómputo como en la de transmisión de datos, ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la información. Sin duda existen cuatro factores importantes que nos han llevado a este suceso:

    1. El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente.
    2. El incremento de las velocidades de cómputo en los procesadores.
    3. Las mejoras en la confiabilidad y aumento de la velocidad en la transmisión de datos.
    4. El desarrollo de sistemas administradores de bases de datos más poderosos.

    Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la información en las bases de datos. Podemos decir que algunas empresas almacenan un cierto tipo de datos al que se ha denominado dato-escritura, ya que sólo se guarda (o escribe) en el disco duro, pero nunca se hace uso de él. Generalmente, todas las empresas usan un dato llamado dato-escritura-lectura, que utilizan para hacer consultas dirigidas. Un nuevo tipo de dato al cual se ha llamado dato-escritura-lectura-análisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones. Es necesario contar con tecnologías que nos ayuden a explotar el potencial de este tipo de datos. La cantidad de información que nos llega cada día es tan inmensa que nos resulta difícil asimilarla. Basta con ir al buscador AltavistaÓ y solicitar la palabra information para ver que existen 171.769.416 sitios donde nos pueden decir algo al respecto. Suponiendo que nos tomemos un minuto para ver el contenido de cada página, tardaríamos entonces 326 años en visitarlas todas. Esto es imposible, y, por lo tanto, existe una clara necesidad de disponer de tecnologías que nos ayuden en nuestros procesos de búsqueda y, aún más, de tecnologías que nos ayuden a comprender su contenido.

    Como bien sabemos, algunos sistemas producen una cantidad inmensa de datos; estos datos con frecuencia contienen valiosa información que puede resultar muy útil y ser vista como vetas de oro por los ojos de un ejecutivo de una corporación. Las dimensiones de las base de datos grandes (montañas) y sus velocidades de crecimiento, hacen muy difícil para un humano su análisis y la extracción de alguna información importante (oro). Aún con el uso de herramientas estadísticas clásicas esta tarea es casi imposible.

    El Data Mining surge como una tecnología que intenta ayudar a comprender el contenido de una base de datos. De forma general, los datos son la materia prima bruta, en el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación del confronto entre la información y ese modelo represente un valor agregado, entonces nos referimos al conocimiento. En la figura 1.1 se ilustra la jerarquía que existe en una base de datos entre dato, información y conocimiento. Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarquía. El área interna dentro del triángulo representa los objetivos que se han propuesto. La separación del triángulo representa la estrecha unión entre dato e información, no así entre la información y el conocimiento. El Data Mining trabaja en el nivel superior buscando patrones, comportamientos, agrupaciones, secuencias, tendencias o asociaciones que puedan generar algún modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisión.

    Figura 1.1. Relación entre Dato, Información y conocimiento.

    El descubrimiento de conocimiento en base de datos (KDD, de Knowledge Discovery in Databases) combina las técnicas tradicionales con numerosos recursos desarrollados en el área de la inteligencia artificial. En estas aplicaciones el término "Minería de Datos" (Data Mining) ha tenido más aceptación. En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas, no del todo comprendidas y carentes de un soporte teórico formal. Pero en este caso el objetivo es tan valioso, que los resultados prácticos han rebasado a la elegancia académica.

    Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de información interesante y potencialmente útiles, inmersos en una gran base de datos en la que se interactúa constantemente. Data Mining es una combinación de procesos como:

    • Extracción de datos
    • Limpieza de datos.
    • Selección de características.
    • Algoritmos.
    • Análisis de resultados.

    Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande, y mediante su análisis predicen posibles tendencias o comportamientos futuros entro de una empresa, permitiendo al experto tomar decisiones en los negocios de una forma rápida y utilizando un conocimiento que de otra forma no habría encontrado. Mediante la utilización de estas herramientas se pueden generar nuevas oportunidades de negocio. Algunas posibilidades que ofrecen estas herramientas son:

    • Predicción automatizada de tendencias y comportamientos.
    • Descubrimiento automatizado de modelos desconocidos.
    • Descubrimiento de anomalías y acciones fraudulentas por parte de clientes.

    Este producto esta fuertemente relacionado con análisis estadísticos, el objetivo de generar hipótesis potenciales de interés que son posteriormente verificadas (Vea la figura 1.2.).

    Figura 1.2.

    Encontrar patrones significativos en todos los datos puede proporcionar una ventaja competitiva a cualquier organización.

    Otra definición que se puede dar de Data Mining y que es muy común encontrar dice: "Una actividad de extracción cuyo objetivo es el de descubrir hechos contenidos en las bases de datos". En la mayoría de los casos se refiere a un trabajo automatizado. Si hay alguna intervención humana a lo largo del proceso, este no es considerado como minería de datos por parte algunas personas. La palabra descubrimiento está relacionada con el hecho de que mucha de la información valiosa es desconocida con anterioridad. En todo caso, estas técnicas pueden ayudar a confirmar cualquier sospecha sobre el comportamiento del sistema en un particular contexto. En cuanto a los hechos escondidos, estos estarán principalmente bajo la forma de reglas las cuales nos ayudarán a entender el modelo del sistema relacionado con los datos observados. Por otra parte, las reglas también pueden ser usadas en la predicción de ciertos estado del sistema (lo que se busca).

    Desde un punto de vista académico el término Data Mining es una etapa dentro de un proceso mayor llamado KDD. Lo que en verdad hace el Data Mining es reunir las ventajas de varias áreas como la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos.

    El Data Mining es una tecnología compuesta por etapas que integra varias áreas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadísticas, de visualización de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de Data Mining muy poderosas que contienen un sinfín de utilerías que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementándose con otra herramienta.[19]

    1.3.1. ¿Dónde se utiliza Data Mining?

    La utilidad de Data Mining se puede dar dentro de los siguientes aspectos:

    • Sistemas parcialmente desconocidos: Si el modelo del sistema que produce los datos es bien conocido, entonces no necesitamos de la minería de datos ya que todas las variables son de alguna manera predecibles. Este no es el caso del comercio electrónico, debido a los efectos del comportamiento humano, el clima y de decisiones políticas entre otros. En estos casos habrá una parte del sistema que es conocida y habrá una parte aparentemente de naturaleza aleatoria. Bajo ciertas circunstancias, a partir de una gran cantidad de datos asociada con el sistema, existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo.
    • Enorme cantidad de datos: Al contar con mucha información en algunas bases de datos es importante para una empresa encontrar la forma de analizar "montañas" de información (lo que para un humano sería imposible) y que ello le produzca algún tipo de beneficio.
    • Potente hardware y software: Muchas de las herramientas presentes en la minería de datos están basadas en el uso intensivo de la computación, en consecuencia, un equipo conveniente y un software eficiente, con el cual cuente una compañía, aumentará el desempeño del proceso de buscar y analizar información, el cual a veces debe vérselas con producciones de datos del orden de los Gbytes/hora (repetimos, algo humanamente imposible). Por ejemplo, las técnicas de Data Mining son utilizadas habitualmente para el análisis y explotación de datos de un Data Warehouse(véase la sección 1.2). El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos, datos de seguimiento de clientes, datos externos de mercado, datos sobre la actividad de competidores, etc.

    Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo, pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como, ¿cuales clientes tienen mas probabilidad de responder al próximo envío de correo promocional, y por qué? y presentar los resultados en formas de tablas, con gráficas, reportes, texto, hipertexto, etc.

    Un ejemplo trivial de minería de datos, es su uso en un departamento de ventas. Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda, el sistema de Data Mining hará una correlación entre ese cliente y las camisas de seda. El departamento de compras mirará la información y realizará envíos de información sobre camisas de seda a ese cliente, o a todos los clientes que sigan ese modelo obtenido. En este caso el sistema de Data Mining es usado para recoger o extraer información nueva sobre los clientes, la cual estaba oculta anteriormente.

    El Data Mining también es fundamental en la investigación científica y técnica, como herramienta de análisis y descubrimiento de conocimiento a partir de datos de observación o de resultados de experimentos.

    1.3.2. Los objetivos principales de Data Mining.

    Data Mining persigue ciertos objetivos de manera especifica, a saber:

    • Descripción: El principal producto del proceso de la minería de datos es el descubrimiento de reglas. Estas mostrarán nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso. Ello enriquecerá el análisis y la descripción de la forma en que trabaja una compañía y ayudará en la planificación y en el diseño de futuros cambios. Es posible que algunas de las reglas descubiertas no puedan ser cambiadas, pero si resulte posible realizar modificaciones apropiadas en la organización con el propósito de mejorar su desempeño.
    • Predicción (Forecasting): Una vez descubiertas reglas importantes, estas pueden ser utilizadas pera estimar algunas variables de salida. Puede ser en el caso de secuencias en el tiempo, o bien en la identificación e interrupción a tiempo, de una futura mala experiencia de crédito. En esta tarea, se complementan las técnicas estadísticas tradicionales con aquellas provenientes de la inteligencia artificial. Conceptos adaptativos como los algoritmos genéticos y las redes neuronales, permiten realizar predicciones más acertadas, especialmente en casos de gran complejidad y con relaciones internas.

    1.3.3. Algunas herramientas utilizadas en Data Mining de la Inteligencia artificial.

    • Redes Neuronales (Neural Networks): Grupo de unidades interconectadas y organizadas por capas. Estas pueden ser funciones matemáticas y números almacenados en computadoras digitales, pero pueden ser elaboradas también mediante dispositivos analógicos como los transistores a efecto de campo. A pesar del incremento en velocidad y de la escala de integración en los semiconductores, la mejor contribución de las redes neuronales tendrá que esperar por computadoras más rápidas, masivas y paralelas.
    • Mapas característicos de Kohonen (Self-organizing Maps): Es una red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes. Una vez entrenada es capaz de identificar tales patrones en nuevos datos.
    • Reconocimiento de patrones (Pattern Recognition): Se trata de un grupo de técnicas orientadas a evaluar la similitud y las diferencias entre señales. Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier.
    • K-nearest neibor: Un procedimiento para clasificar a los records de un archivo mediante la identificación de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los records.
    • Algoritmo Genético (Genetic Algorithm): Imitando la evolución de las especies mediante la mutación, reproducción y selección, estos algoritmos proporcionan programas y optimizaciones que pueden ser utilizados en la construcción y entrenamiento de otras estructuras como las redes neuronales.

    CAPITULO II

    LA FORMA EN QUE SE TRABAJA CON DATA MINING.

    El presente capítulo esta enfocado, como lo dice su nombre, a la forma en que se trabaja con Data Mining, es decir, veremos cómo es la arquitectura de Data Mining y su relación estrecha con un Data Warehouse, esto en la sección 2.1, La Arquitectura de Data Mining, y abordaremos en el apartado 2.2, Fases para la creación de un proyecto Data Mining, las cinco etapas que son llevadas a cabo para poner en marcha un proyecto de Data Mining, por supuesto que no es nuestra intención dar una guía detallada para poder realizar algo de esta naturaleza, pero sí una referencia adecuada, ya que en la realidad, construir un proyecto de tal naturaleza, y en sí un proyecto de cualquier tipo, depende mucho de las circunstancias reales a la cuales nos estemos enfrentando.

    2.1. La Arquitectura de Data Mining. [19]

    Dadas bases de datos de suficiente tamaño y calidad, la tecnología de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades:

    • Predicción automatizada de tendencias y comportamientos: Data Mining automatiza el proceso de encontrar información predecible en grandes bases de datos. Preguntas que tradicionalmente requerían un intenso análisis manual, ahora pueden ser contestadas directa y rápidamente desde los datos. Un típico ejemplo de problema predecible es el marketing, Data Mining usa datos en anuncios publicitarios anteriores para identificar posibles objetivos para maximizar los resultados de la inversión en futuros anuncios. Otros problemas predecibles incluyen pronósticos de problemas financieros futuros o identificar segmentos de población que probablemente respondan similarmente a eventos dados (por ejemplo, anuncios de televisión).
    • Descubrimiento automatizado de modelos previamente desconocidos. Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un sólo paso. Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de créditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos.

    Las técnicas de Data Mining pueden redituar los beneficios de automatización en las plataformas de hardware y software existentes y puede ser implementadas en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados. Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alto performance (rendimiento), pueden analizar bases de datos masivas en minutos. Procesamiento más rápido significa que los usuarios pueden automáticamente experimentar con más modelos para entender datos complejos. La alta velocidad hace que sea práctico para los usuarios analizar inmensas cantidades de datos. Grandes bases de datos, a su vez, producen mejores predicciones.

    Las bases de datos pueden ser grandes tanto en profundidad como en ancho:

    • Más columnas. Los analistas muchas veces deben limitar el número de variables a examinar cuando realizan análisis manuales debido a limitaciones de tiempo. Sin embargo, variables que son descartadas porque parecen sin importancia pueden proveer información acerca de modelos desconocidos. Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos, sin preseleccionar un subconjunto de variables.
    • Más filas. Muestras mayores producen menos errores de estimación y desvíos, y permite a los usuarios hacer inferencias acerca de pequeños pero importantes segmentos de población.

    2.1.1. Los Modelos de Data Mining.

    ¿Cuán exactamente es capaz Data Mining de decirle cosas importantes que usted desconoce o que van a pasar? La técnica usada para realizar estas hazañas en Data Mining se llama Modelado. Modelado es simplemente el acto de construir un modelo en una situación donde usted conoce la respuesta y luego la aplica en otra situación de la cual desconoce la respuesta. Por ejemplo, si busca un galeón español hundido en los mares lo primero que podría hacer es investigar otros tesoros españoles que ya fueron encontrados en el pasado. Notaría que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas características respecto de las corrientes oceánicas y ciertas rutas que probablemente tomará el capitán del barco en esa época. Usted nota esas similitudes y arma un modelo que incluye las características comunes a todos los sitios de estos tesoros hundidos. Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo más probabilidad de darse una situación similar. Con un poco de esperanza, si tiene un buen modelo, probablemente encontrará el tesoro.

    Este acto de construcción de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo, seguramente desde antes del auge de las computadoras y de la tecnología de Data Mining. Lo que ocurre en las computadoras, no es muy diferente de la manera en que la gente construye modelos. Las computadoras son cargadas con mucha información acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a través de los datos y distinguir las características de los datos que llevarán al modelo. Una vez que el modelo se construyó, puede ser usado en situaciones similares donde usted no conoce la respuesta.

    Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes, ¿Cómo puede saber si es realmente un buen modelo? La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes – donde usted ya conoce la respuesta. Con Data Mining, la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining. Una vez que el proceso está completo, los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo. Si el modelo funciona, las observaciones deben mantenerse para los datos excluidos.

    2.1.2. Data Mining dentro de una arquitectura Data Warehousing.

    Las técnicas de Data Mining son utilizadas habitualmente para el análisis y explotación de datos de un Data Warehouse. El uso del Data Mining puede ser provechoso por ejemplo en el caso de que una empresa posea un Data Warehouse que contenga datos sobre sus procesos productivos, datos de seguimiento de clientes, datos externos de mercado, datos sobre la actividad de competidores, etc., es una poderosa tecnología nueva con gran potencial para ayudar a las compañías a concentrarse en la información más importante de su base de información (Data Warehouse).

    Para aplicar mejor técnicas avanzadas de Data Mining, éstas deben estar totalmente integradas con el Data Warehouse así como con herramientas flexibles e interactivas para el análisis de negocios. Varias herramientas de Data Mining (de algunas hablaremos en el Capitulo III) actualmente operan fuera del Warehouse, requiriendo pasos extra para extraer, importar y analizar los datos. Además, cuando nuevos conceptos requieren implementación operacional, la integración con el Warehouse simplifica la aplicación de los resultados desde Data Mining. El Data Warehouse puede ser aplicado para mejorar procesos de negocios en toda la organización, en áreas tales como manejo de campañas promocionales, detección de fraudes, lanzamiento de nuevos productos, etc.

    El punto de inicio ideal es un Data Warehouse que contenga una combinación de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores. Información histórica sobre potenciales clientes también provee una excelente base para la predicción de tendencias. Este Warehouse puede ser implementado en una variedad de sistemas de bases de datos relacionales y debe ser optimizado para un acceso a los datos flexible y rápido.

    Las soluciones que aporta el Data Mining están basadas en la implementación, a través de la programación, de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploración y organización de los datos. Estos algoritmos apoyan la identificación de patrones, relaciones y anomalías de interés potencial para los que toman las decisiones en los negocios. Además de implementar estos algoritmos en un método accesible para el usuario la tecnología del Data Mining requiere una comprensión de varias bases de datos e implementación de soluciones de Data Mining para aprovechar las características de dichas bases de datos (si hay alguna) y que hacen que las tareas del Data Mining sean más eficientes en grandes volúmenes de datos. Además de las implementaciones de algoritmos, consideraciones claves relativas al Data Mining serían la preparación de datos y el asegurar la escalabilidad y rendimiento en grandes volúmenes de datos.

    2.2. Creación de un proyecto Data Mining.

    La creación de un proyecto de Data Mining pasa por diferentes fases, estas varían de autor en autor y también dependen de dónde se vaya a implantar dicho proyecto, aquí presentamos una forma general para la creación de un proyecto de DM y una forma más específica, estas fases sirven como una guía parcial para elegir una buena forma de implantar un proyecto de este tipo, al final de esta sección presentamos algunas recomendaciones para crear un proyecto de Data Mining de Juan Uwaldo Redondo.

    2.2.1. Fases generales para la creación de un proyecto Data Mining.[6]

    En esta parte se emplean cuatro fases independientemente de la técnica específica de extracción de conocimiento usada.

    1. Filtrado de datos.
    2. Selección de Variables.
    3. Extracción de Conocimiento.
    4. Interpretación y Evaluación.

    Estas fases las explicamos enseguida.

    • Filtrado de datos: El formato de los datos contenidos en la fuente de datos nunca es el idóneo, y la mayoría de las veces no es posible utilizar ningún algoritmo de minería. Mediante el preprocesado, se filtran los datos (se eliminan valores incorrectos, no válidos, desconocidos, etc.), se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso), o se reducen el número de valores posibles (mediante redondeo, agrupamiento, etc.).
    • Selección de variables: Aún después de haber sido preprocesados, se sigue teniendo una cantidad ingente de datos. La selección de características reduce el tamaño de los datos, eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería. Los métodos para la selección de características son dos:
    1. Los basados en la elección de los mejores atributos del problema.
    2. Los que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos.
    • Extracción de Conocimiento: Mediante una técnica se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos.
    • Interpretación y evaluación: Finalmente se procede a su validación, comprobando que las conclusiones son válidas y satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, se alterará alguno de los procesos anteriores en busca de nuevos modelos.

    2.2.2. Las Fases para la creación de un proyecto DM según José Emilio Gondar Nores.[11]

    José Emilio Gondar Nores nos dice que las fases que se siguen para la creación de un proyecto DM son las siguientes.

    • Fase I: Diseñar una estrategia para el proyecto DM.
    • Fase II: Construcción y diseño de una BD: Data Warehouse y OLAP
    • Fase III: Creación aplicaciones inteligentes del modelo Data Mining.
    • Fase IV: Formación del equipo humano fijo de Data Mining.
    • Fase V: Lanzamiento del modelo de DM, evaluación de la calidad y corrección de los errores del modelo de DM.

    Estas fases son un tanto más específicas que las que veremos posteriormente, su explicación es la siguiente.

    • Fase I: Diseñar una estrategia para el proyecto DM: Durante esta fase se debe diseñar, lo mejor posible, una estrategia y una metodología, además de adaptar la situación del entorno a un plan para la creación de un proyecto de Data Mining, como recordará, al inicio de este capítulo hicimos mención del hecho que un proyecto de Data Mining e incluso un proyecto de cualquier otra índole, su planificación y la forma en que deba trabajarse dependerá en gran medida de las circunstancias a las cuales nos estemos enfrentando, debemos apegarnos a lo que el usuario o cliente nos solicite, no entregar más pero tampoco menos, otro de los factores clave, también es el considerar los recursos económicos con los cuales se cuente para trabar un proyecto de Data Mining. Otro de los puntos a establecer es el tiempo límite en el cual se deberá trabajar con un proyecto de este tipo.
    • Fase II: Construcción y diseño de una BD: Data Warehouse y OLAP: Se considera la implementación del almacén de datos (Data Warehouse). Las 4 etapas típicas de construcción y modelado de un DW son las siguientes:
    1. Indicadores y Dimensiones del Negocio.
    2. Identificación del origen de datos.
    3. Pruebas e Implementación.
    4. Evaluación y Explotación.

    Para Bases de Datos se emplean, entre otros, el software OracleÓ y MicrosoftÓ .

    La implementación del OLAP tiene 4 fases:

    • Fusión de Datos.
    • Depurar los Datos.
    • Agregar los Datos.
    • Organizar los Datos.

    Para OLAP se emplean, entre otros, el software MicrosoftÓ y MicrostrategyÓ .

    • Fase III: Creación de Aplicaciones Inteligentes del Modelo de DM: Esta fase integra los siguientes puntos:
    1. Creación de aplicaciones inteligentes (Inteligencia Artificial) del modelo de DM: creación p. ej., de patrones, reglas de asociación, árboles de decisión, etc.
    2. Integración de todas las BD (es decir, de toda la información del DW).
    3. Creación de un único fichero de datos: ficheros lineales ( todos los casos y variables tiene el mismo valor) y no lineales (en este tipo de ficheros existen situaciones, sujetos y acciones ocultas o incompletas).
    4. Planteamiento de un DM (Metodologías o estrategias). Hay dos tipos de planteamientos:

    SEMMA (SAS):

    • S. Samplig: Muestreo.
    • E. Exploration: Exploración de las Bases de datos.
    • M. Modification: Modificación o transformación de variables para crear (en su caso) variables más aptas para los análisis.
    • M. Modelling: Modelado estadístico.
    • A. Assessment: Evaluación del DM, medido en coeficiente %.

    CRISP-DM (SPSS):

      • Comprensión del negocio.
      • Compresión de los datos.
      • Preparación de los datos.
      • Modelado.
      • Evaluación.
      • Lanzamiento.
    • Fase IV: Formación del equipo humano fijo de Data Mining: La formación del staff de diseño, desarrollo y mantenimiento del DM considera a 5 personas fijas:
      • Jefe de proyecto.
      • Coordinador de DM.
      • Analista de DM.
      • Diseñador de DW.
      • Ayudante de DM.

    En esta fase se debe realizar la explicación a este equipo de la lógica de sistema y del funcionamiento de la aplicación del DM y la selección del staff. Se plantean en esta fase dos posibles situaciones:

    1. El cliente crea su propio equipo y éste mantiene el DM. Se ayuda a crear este equipo para que trabaje de modo autónomo del creador.
    2. El cliente subcontrata un servicio de Outsourcing. En este caso, se debe plantear una oferta de servicio de apoyo y consultaría constante Post-hoc (posterior a la implantación de la solución de DM). Esto da lugar a viajes, estancia y gastos.
    • Fase V: Lanzamiento del modelo de DM, evaluación de la calidad y corrección de los errores del modelo de DM: La evaluación y corrección de los errores del modelo de DM afecta a la gestión y control de calidad del modelo DM. Hay tres tipos de tareas:
    1. Estudiar posibles errores y detectarlos en el funcionamiento de la aplicación.
    2. Plantear posibles correcciones o soluciones a dichos errores.
    3. Evaluar la calidad del sistema o aplicación del DM construido.

    2.2.3. Recomendaciones para la creación de un proyecto Data Mining.[15]

    Juan Uwaldo Redondo nos da algunas recomendaciones para poder implantar un proyecto de Data Mining.

    • Analice sus necesidades de información. Sea realista con ellas y contemple los futuros crecimientos. Evite que en poco tiempo su sistema se quede pequeño o poco operativo.
    • No tenga complejos técnicos por no ser un experto. Usted es quien mejor conoce su empresa y a sus clientes.
    • Pida asesoramiento externo. La visión de alguien experto en procesos y ajeno a la compañía, introducirá un soplo de aire fresco y una visión más rica del problema.
    • No mate moscas a cañonazos. No implante sistemas que no necesita. Además de caros, serán un obstáculo y una hipoteca para futuros crecimientos.
    • Si pide una valoración externa de sus sistemas y procesos, elija con cuidado. Si invita a Ferrari, le venderán un Ferrari aunque lo que usted necesite sea una furgoneta.
    • Contraste opiniones. Utilice la situación para proponer mejoras en los procesos, en las rutinas, y en la forma de trabajar. Puede ser un excelente pretexto para revisar procedimientos y recortar costes. En cualquier caso, no informatice el caos.
    • No implante nada que no necesite de verdad. Si lo implanta mantenga una visión a medio-largo plazo.
    • Utilice las herramientas y los recursos de los que ya dispone. Contratar un proyecto o un sistema más caro no va a hacer que aumente su rentabilidad.

    Partes: 1, 2
    Página siguiente