CAPITULO III
A lo largo de este capítulo veremos algunas de las aplicaciones de Data Mining dentro de varias áreas, esta parte esta muy enfocada a aspectos empresariales debido a que Data Mining es frecuentemente utilizado en estos rubros, no obstante, hemos procurado incluir algunas aplicaciones de carácter científico para demostrar que DM puede ser empleado muy bien en ambos escenarios. En la sección 3.1, ¿Por qué usar Data Mining? veremos las razones del por qué es necesario en ocasiones utilizar una tecnología de este tipo, en el apartado 3.2 Algunas Herramientas de Data Mining citaremos algunos ejemplos de las herramientas software que son empleadas para el manejo de Data Mining. Hay una discusión importante acerca de que si Data Mining es la contraparte de la estadística, si una ayuda a la otra o son áreas que están peleadas, de esto hablaremos un poco en la sección 3.3, Data Mining vs. Estadística. Hemos hecho mención, en los capítulos anteriores, que Data Mining es un gran apoyo a la toma de decisiones dentro del marketing, es por ello que ahora abordaremos, en el punto 3.4, Mercadeo y Data Mining, la relación existente entre ambos procesos. Durante el apartado 3.5 Ejemplos de utilización de Data Mining presentamos varios ejemplos, algunos de los cuales ya se han llevado a la práctica.
3.1. ¿Por qué usar Data Mining?
Sin duda alguna que el uso de Data Mining:
- Contribuye a la toma de decisiones tácticas y estratégicas proporcionando un sentido automatizado para identificar información clave desde volúmenes de datos generados por procesos tradicionales o elementos software.
- Permite a los usuarios dar prioridad a decisiones y acciones, por ejemplo, qué segmentos de clientes son desechables en una empresa.
- Proporciona poderes de decisión a los usuarios del negocio que mejor entienden el problema y el entorno y es capaz de medir la acciones y los resultados de la mejor forma.
- Genera Modelos descriptivos: En un contexto de objetivos definidos en los negocios permite a empresas, sin tener en cuenta la industria o el tamaño, explorar automáticamente, visualizar y comprender los datos e identificar patrones, relaciones y dependencias que impactan en los resultados finales de la cuenta de resultados (tales como el aumento de los ingresos, incremento de los beneficios, contención de costes y gestión de riesgos)
- Genera Modelos predictivos: permite que relaciones no descubiertas e identificadas a través del proceso del Data Mining sean expresadas como reglas de negocio o modelos predictivos. Estos outputs pueden comunicarse en formatos tradicionales (presentaciones, informes, información electrónica compartida, embebidos en aplicaciones, etc.) para guiar la estrategia y planificación de la empresa.
Si una empresa tiene menos de 100 mil clientes probablemente le baste con AccessÓ . Sorprendentemente, el aprovechamiento de recursos relativamente simples de ofimática como ExcelÓ , AccessÓ , etc, de los que ya disponemos es muy escaso. Por ejemplo, pocos saben que se puede realizar un análisis de series temporales con ExcelÓ , sin necesidad de acudir o contratar otras complejas y caras aplicaciones informáticas. Tal vez sólo necesita una Intranet, o tener al menos a su empresa en una red de área local. Además de una muy simple programación de algunas rutinas con Visual BasicÓ , para dotar a su empresa de un potente Data Mining. ¿El coste? Al menos entre 20 y 50 veces menor que contratar una solución propietaria con un proyecto llave en mano de consultoría. Sólo en compañías de grandes dimensiones o en aquellas en las que el volumen y frecuencia de los datos es igual de grande, esté probablemente justificada una inversión, casi siempre desorbitada, en un complejo y potente sistema.
Sin embargo, para empresas grandes, la innovación y la originalidad son habilidades fundamentales para su supervivencia, su éxito y prosperidad depende también de decisiones eficientes y competitivas que deben ser tomadas en cortos intervalos de tiempo. Para tomar decisiones, es fundamental contar con información de calidad, lo cual es proporcionado por Data Mining.[19]
3.2. Algunas herramientas de Data Mining.
En esta sección presentamos algunos ejemplos de herramientas software empleadas para trabajar Data Mining.
Weka: Magnífica suite de minería de datos de libre distribución.
Weka es una colección de máquinas virtuales para implementar algoritmos para tareas de minería de datos. Los algoritmos pueden aplicarse directamente a un conjunto de datos o pueden utilizarse desde un programa de Java. Weka contiene herramientas para el procesamiento de datos, clasificación, asociación, visualización, entre otras. También está bien preparado para desarrollar esquemas. Weka es un software abierto emitido por GNU.[5]
MLC++: Conjunto de librerías y utilidades de minería de datos.
Es una biblioteca de clases de C++. Proporciona algoritmos que pueden ser usados por usuarios finales, analistas, profesionales e investigadores. El objetivo principal es proporcionarles una variedad ancha de herramientas que pueden ayudarlos a llevar procesos de minería de datos, acelerar el desarrollo de nuevos algoritmos mineros, proporcionar herramientas de comparación y de despliegue de información.[4]
Xelopes: Librería con licencia pública GNU para el desarrollo de aplicaciones de minería de datos.
Es una librería de plataforma independiente para utilización de Data Mining. Proporciona algoritmos de minería de datos muy eficaces que usted puede integrar transparentemente en sus aplicaciones. Apoya la automatización de selección de parámetros de los métodos para que éstos puedan desplegarse totalmente automáticamente.[8]
Herramientas de MicrosoftÓ .
MicrosoftÓ ha decidido implementar su API de Data Mining utilizando OLE DB para el acceso a los datos. Esta API define un lenguaje basado en SQL especialmente desarrollado con el fin de definir que reglas y patrones que nos gustaría encontrar. Los modelos obtenidos en este proceso son tratados mediante tablas SQL especiales. Microsoft SQL Server 2000Ó incluye esta tecnología basada en OLE DB, y en dos algoritmos: MicrosoftÓ Decision Trees y MicrosoftÓ Clustering, ambos basados en técnicas de Inteligencia Artificial y desarrollados por Microsoft ResearchÓ . Microsoft SQL ServerÓ es el sistema gestor de Bases de Datos de MicrosoftÓ . Su diseño se ha realizado pensando en la seguridad, fiabilidad y escalabilidad, por lo que es ideal para aquellas empresas que buscan agilidad en el control y análisis de su información. Entre sus múltiples funcionalidades se puede destacar la integración servicios OLAP, directivas de seguridad, optimización de recursos de sistema, y un completo paquete pensado para el análisis de los datos.
Por otra parte, las herramientas comerciales de Data Mining que existen actualmente en el mercado son variadas y excelentes. Las hay orientadas al estudio del web o al análisis de documentos o de clientes de supermercado, mientras que otras son de uso más general. Su correcta elección depende de la necesidad de la empresa y de los objetivos a corto y largo plazo que pretenda alcanzar. La decisión de seleccionar una solución de Data Mining no es una tarea simple. Es necesario consultar a expertos en el área con vista a seleccionar la más adecuada para el problema de la empresa.
Debemos aclarar que aquí solo estamos presentando ejemplos de herramientas que están destinadas al uso de Data Mining, hemos hablado de algunos productos comerciales y dado la descripción que los mismos diseñadores de estos productos dan, sin embargo, esto no quiere decir que nosotros estemos a favor de usar tal o cual producto, la decisión depende en su totalidad de la empresa que pretenda usar alguna herramienta de Data Mining –como se mencionó en el párrafo anterior.
3.3. Data Mining vs. Estadística.[19]
Ahora pretendemos explicar las diferencias de Data Mining y estadística desde una perspectiva constructiva en el uso de ambas herramientas analíticas y bajo un contexto empresarial.
Ambas ciencias tienen el mismo objetivo: mejorar la toma de decisiones mediante un conocimiento del entorno. Este entorno lo facilitan los datos almacenados en la compañía, cuantitativos o cualitativos y mediante información de terceras empresas.
Data Mining aventaja a la estadística en los siguientes supuestos:
- Las técnicas estadísticas se centran generalmente en técnicas confirmatorias, mientras que las técnicas de Data Mining son generalmente exploratorias. Así, cuando el problema al que pretendemos dar respuesta es refutar o confirmar una hipótesis, podremos utilizar ambas ciencias. Sin embargo, cuando el objetivo es meramente exploratorio (para concretar un problema o definir cuales son las variables más interesantes en un sistema de información) surge la necesidad de delegar parte del conocimiento analítico de la empresa en técnicas de aprendizaje (inteligencia artificial), utilizando Data Mining. Aquí hemos detectado una primera diferencia de aplicación de ambas herramientas: Data Mining se utilizará cuando no partamos de supuestos de partida y pretendamos buscar algún conocimiento nuevo y susceptible de proporcionar información novedosa en la toma de decisiones.
- A mayor dimensionalidad del problema el Data Mining ofrece mejores soluciones. Cuantas más variables entran en el problema, más difícil resulta encontrar hipótesis de partida interesantes. O, aun cuando pudiera, el tiempo necesario no justificará la inversión. En ese caso, utilizar técnicas de Data Mining como árboles de decisión que nos permitirá encontrar relaciones inéditas para luego concretar la investigación sobre las variables más interesantes.
- Las técnicas de Data Mining son menos restrictivas que las estadistas. Una vez encontrado un punto de partida interesante y dispuestos a utilizar algún análisis estadístico en particular, puede suceder que los datos no satisfagan los requerimientos del análisis estadístico. Entonces, las variables deberán ser examinadas para determinar que tratamiento permite adecuarlas al análisis, no siendo posible o conveniente en todos los casos. Aquí también destaca el Data Mining, puesto que es menos restrictivo que la estadística y permite ser utilizado con los mínimos supuesto posibles (permite ‘escuchar’ a los datos).
- Cuando los datos de la empresa son muy dinámicos las técnicas de Data Mining inciden sobre la inversión y la actualización del conocimiento de nuestro negocio. Un almacén de datos poco dinámico permite que una inversión en un análisis estadístico quede justificada –personal cualificado en estadística, metodología rígida y respuestas a preguntas muy concretas- dado que las conclusiones van a tener un ciclo de vida largo. Sin embargo, en un almacén muy dinámico las técnicas de Data Mining permiten explorar cambios y determinar cuando una regla de negocio ha cambiado. Permitiendo abordar diferentes cuestiones a corto/medio plazo.
Expongamos ahora aquellos contextos en los que es más adecuado el análisis estadístico que el de Data Mining:
- El objetivo de la investigación es encontrar causalidad. Si se pretende determinar cuales son las causas de ciertos efectos (por ejemplo, si invertir más en la publicidad de cierto producto tiene como consecuencia un incremento de ventas o si es más determinante el ofrecer un descuento a los clientes), deberemos utilizar técnicas de estadística. Las relaciones complejas que subyacen a técnicas de Data Mining impiden una interpretación certera de diagramas causa-efecto.
- Se pretende generalizar sobre poblaciones desconocidas en su globalidad. Si las conclusiones han de ser extensibles a otros elementos de poblaciones similares habrán de utilizarse técnicas de inferencia estadística. Esto viene relacionado con situaciones en las que se dispone exclusivamente de muestras (con el consiguiente problema de aportar validez a las muestras). En Data Mining, se generarán modelos y luego habrán de validarse con otros casos conocidos de la población, utilizando como significación el ajuste de la predicción sobre una población conocida (es lo habitual cuando queremos predecir perfiles de clientes, que ya disponemos de antecedentes para poder validarlo, aunque no siempre es posible acceder a dicha información o no siempre es correcto aplicar ciertas muestras).
Se ha detallado algunos argumentos acerca de cuando es conveniente utilizar Data Mining o estadística. Llegado a este punto deseamos destacar que ambas perspectivas constituyen una sinergia y que no son excluyentes una de la otra. En este sentido, la metodología de un proyecto de Data Mining ha de contener referencias a la estadística en dos partes destacables del proceso:
- Preparación de los datos (tratamiento de valores erróneos, valores omitidos, etc.) y aproximación a las variables de estudio.
- Despliegue del proyecto y posible generación de hipótesis a refutar con una metodología y técnica estadística.
Así pues, Data Mining y estadística son técnicas complementarias que permiten obtener conocimiento inédito en nuestros almacenes de datos o dar respuestas a cuestiones concretas de negocio.
3.4. Mercadeo y Data Mining.[19]
Hay un avance sorprendente en el manejo electrónico de datos. Cada día, millones de personas llegan a sus empleos presenciales o en línea y durante horas digitan en sus computadoras, billones de bytes que registran las transacciones comerciales que reflejan el pulso de las economías del mundo. Hace tan solo unos años, los datos de las empresas estaban orientados principalmente a alimentar sus sistemas contables, financieros, de inventarios, de producción, de recursos humanos y de ventas. En la medida que los negocios mundiales se hicieron más competitivos y complejos, los datos cada vez cobraron más vida y se convirtieron en información vital para la toma de decisiones de los gerentes. Las revoluciones científica, económica, política y tecnológica, sumadas a la revisión de los conceptos de soberanía de las naciones, han vuelto los mercados impredecibles. La sociedad de masas creada por la revolución industrial se ha fragmentado en miles de pedazos. El consumidor empieza a tener rostro y la diversidad prevaleciente en el mercado le ha cambiado el rostro al mercadeo.
Entender al nuevo consumidor es una tarea cada vez más compleja, pues la antigua noción de desarrollar un producto e inducir su compra a un cliente potencial desprevenido mediante el uso de la publicidad masiva ya murió. Para cada producto o servicio hay numerosas opciones de mercados posibles. Seleccionar el mercado y luego segmentarlo es una tarea titánica. Ya no se puede decir como antes que los mejores clientes potenciales son las mujeres entre los dieciocho y los cuarenta y nueve años, la gente de la generación X o la gente que se parece a nuestros consumidores actuales. Tras la aparente similitud existe toda una heterogeneidad derivada de las diferencias en educación, ocupación, ingresos, etnias, culturas, estilos de vida, percepciones, necesidades y deseos.
Si trabajamos en un conglomerado bancario, una compañía de gas domiciliario a gran escala, un proveedor globalizado de servicios de telecomunicación, una compañía de seguros a nivel mundial líder en sus mercados, etc., entonces almacenamos grandes cantidades de información y queremos agregarles valor, por lo tanto estaremos interesados en automatizar el proceso de información y descubrir información valiosa que de otra forma seguirá siendo subutilizada o simplemente desperdiciada. Empecemos pues a cavar y a construir un túnel en su escenario de mercadeo, para ello es de gran utilidad el proceso de Data Mining
Hacer mercadeo con base de datos con Data Mining puede requerir de una alta inversión económica y además la integración de tres componentes fundamentales:
- La información almacenada actualmente, mucha de ella proveniente de sus sistemas de información que interactúan con el cliente.
- Técnicas estadísticas o instrumentos que usen modelos predictivos.
- Equipos sofisticados de presentación.
Una aplicación, por ejemplo, es implementar un proceso que genere una muy precisa segmentación de los clientes. Una vez que el motor del Data Mining ha seleccionado un grupo adecuado de segmentos de clientes de su bodega de datos (Data Warehouse), el próximo paso será extrapolar los perfiles de los consumidores. Cada vez que llega una nueva cosecha de clientes se aplica un nuevo conjunto de modelos estadísticos y se corre el programa para comparar contra los segmentos existentes o crear otros nuevos. Aquí estamos enfocando la atención a predecir la lealtad de marca, para citar un ejemplo, pero tenemos muchas otras aplicaciones como son:
- Segmentación del mercado.
- Tendencias de deserción de clientes.
- Descubrimiento de transacciones fraudulentas.
- Mercadeo directo.
- Mercadeo Interactivo.
- Análisis de canasta.
- Análisis de tendencias.
- Perfiles de clientes.
- Focalización de clientes y campañas promocionales.
El mercadeo mediante Data Mining, convierte una plataforma tecnológica en un sistema de información sobre el que se construyen soluciones de negocios. Naturalmente el punto de partida es que las montañas de datos deben ser de oro y no de chatarra. De lo contrario no vale la pena excavar. Se necesitarán equipos de computo, sistemas operativos y la infraestructura necesaria para apoyar ese proyecto minero. Luego vendrán las técnicas de inteligencia artificial y de análisis estadístico que permitirán extraer el oro de su mina. El primer paso es evaluar los recursos, objetivos y necesidades.
3.4.1. Data Mining y los procesos de venta.
El Data Mining integra los procesos modernos de ventas en los cuales se pueden aplicar algunas técnicas que señalamos a continuación:
El Cross Selling: Esta técnica se basa en el mercadeo concéntrico, esto es, en múltiples ofertas alrededor de un mismo cliente. A mayor cantidad de transacciones o relaciones que sostenga una cuenta con nosotros, mayor será la capacidad de la empresa de retenerla con el paso del tiempo. Esto requiere de la segmentación de la clientela para adaptar la oferta a las necesidades del cliente o grupo de éstos y de la existencia de alguna matriz que identifique cuáles Productos se le han colocado a cuáles clientes (y cuáles no) para facilitar eventuales ofertas.
El Networking: Cada cliente puede ser una fuente de negocios adicionales, pero existen siempre evidentes "multiplicadores" que por su naturaleza o poder de convocatoria aglutinan números importantes de clientes potenciales. Esta técnica busca crear redes de cuentas potenciales alrededor de una sola matriz internamente, en nuestra clientela existen normalmente varias de éstas y en el mercado tantas más. Por ejemplo: Pueden ser nuestros clientes los empleados de ellos, sus propios clientes, sus proveedores, afiliados, etc.
Otras aplicaciones en este sentido del Data Mining pueden ser:
- Para Comunicarnos con nuestra base de clientes y prospectos de manera directa y masiva (cumpleaños, lanzamientos, cobros) .
- Para contribuir en la conservación de clientes existentes.
- Para vender otros productos a nuestra base de clientes y elevar ingresos.
- Para capturar nuevos clientes con Televisión o Web-Marketing.
Por ejemplo, Data Mining podría arrojar resultados a una empresa como:
- "La mayoría de los que compraron un determinado tipo de tabla de surf posiblemente veraneen este año en Nueva Zelanda".
- "El 76% de las veces que un cliente llevó gaseosa también compró detergente biodegradable".
- "Tanto los desodorantes de hombre como los de mujer, se venden mejor juntos que separados, entre las 17:00 y las 19:00 del fin de semana, en las sucursales de la zona sur".
Es muy poco probable que a alguna persona de marketing se le hubiera ocurrido comparar datos sobre la venta de estos productos, y éste es sólo un ejemplo de la enorme variedad de relaciones que el Data Mining es capaz de encontrar. Cuando el programa encuentra correlaciones interesantes, los traduce en gráficos simples, permitiéndoles a los gerentes tomar decisiones más racionales, y no sólo basadas en la intuición. No obstante, el Data Mining ayuda a confirmar un presentimiento o a desmentir una creencia: en un ejercicio netamente colaborativo, el ser humano sugiere las ideas (hipótesis) y la máquina las confirma o las rechaza según la evidencia aportada por los datos.
El Data Mining se utiliza tanto en los negocios como en la ciencia. Desde la comprensión del comportamiento de los clientes hasta el análisis de las decisiones de expertos, desde la predicción de los posibles cambios en el mercado hasta el descubrimiento de patrones en el cuidado de la salud, desde la detección de fraudes en tarjetas de crédito hasta el descubrimiento de galaxias, desde la mejora de las promociones de ventas hasta la síntesis de drogas, el Data Mining tiene una enorme gama de aplicaciones.
3.5. Ejemplos de Utilización de Data Mining.
Cada año, en los diferentes congresos, simposios y talleres que se realizan en el mundo se reúnen investigadores con aplicaciones muy diversas sobre Data Mining. Sobre todo en los Estados Unidos, el Data Mining se ha ido incorporando a la vida de empresas, gobiernos, universidades, hospitales y diversas organizaciones que están interesadas en explorar sus bases de datos. Podemos decir que "en Data Mining cada caso es un caso". A continuación se describen varios ejemplos donde se ha visto involucrado el Data Mining.
3.5.1.Pañales y cervezas: Un caso famoso acerca del comportamiento de los consumidores.
Una situación muy popular sucedió en una cadena de víveres en los Estados Unidos. Utilizando un software de minería de datos para estudiar el comportamiento de sus clientes, encontraron relaciones interesantes entre pañales, cervezas, hombres, y día de la semana.
Encontraron que los días jueves y sábado, los hombres que compraban pañales también compraban cerveza. Información como esa, que no siempre es evidente a primera vista, puede ser utilizada para reubicar la mercancía en lugares más estratégicos, en este ejemplo, manteniendo a los pañales y a las cervezas cercanos unos de otros.
Este resultado suministrado por un proceso de minería de datos, puede ser analizado en profundidad por expertos humanos. Si ellos encuentran una explicación razonable, esta de seguro será de mucho ayuda para que los ejecutivos de la empresa alcancen sus objetivos de una manera más eficiente.
3.5.2. Data Mining para Pymes.
WebMining LtdaÓ desarrolla estudios y modelos para pequeñas y medianas empresas (Pymes) utilizando técnicas de Data Mining y Web Mining (Vea el capítulo V). Se obtiene conocimiento sobre algún negocio utilizando técnicas de clustering, redes neuronales y árboles de decisión.[12]
Entre las variadas aplicaciones de Data Mining que se desarrollan, destacan:
- Segmentación de Clientes: Segmentación de clientes utilizando técnicas de agrupamiento difuso.
- Clasificación: Clasificación de clientes utilizando técnicas de redes neuronales. Por ejemplo, para aplicaciones de adquisición de nuevos clientes o detección de fuga.
- Modelos Predictivos: Desarrollo de modelos predictivos utilizando árboles de decisión o redes neuronales. Estos modelos permiten realizan una predicción sobre la base de una serie de decisiones.
- Inducción de reglas: Que permiten entender el comportamiento de compra de los clientes o realizar predicciones basadas en un cierto objetivo.
- Rediseño de sitios Web: Reorganización de la estructura de links o contenido de las páginas.
- Soporte a decisiones de Marketing o de Negocios: Determinación de conductas o rasgos de los clientes que realizan ciertas acciones, tales como comprar productos.
- Personalización: Adaptación de las vistas de página de acuerdo a la información obtenida de cada usuario. Esto puede incluir precios dinámicos para cada usuario o promociones que aumenten las ventas.
- Estudios de utilidad: Determinación de la calidad de la interfaz de usuario.
- Seguridad: Detección de accesos inusuales a datos privados.
- Análisis de tráfico de redes: Determinación de los requerimientos de equipo y la distribución de datos con el fin de manejar eficientemente el tráfico de un sitio.
3.5.3. Data Mining en SAS.
La Compañía Software And Services (SAS)Ó , líder en inteligencia de negocios (Business Intelligence o BI), continúa siendo reconocida como referente en el área de Data Mining. SAS, el quinto mayor fabricante de software empresarial del mundo, lidera la nueva generación de software y servicios de que permiten la creación de una verdadera inteligencia empresarial. Las soluciones de SAS están implementadas en más de 40.000 instalaciones, permitiendo la optimización de las relaciones con sus clientes y proveedores y ayudando a tomar las mejores decisiones. SAS es el único proveedor que integra completamente aplicaciones Data Warehousing, aplicaciones analíticas y las tradicionales aplicaciones de BI para crear inteligencia a partir de las cada vez mayores cantidades de datos disponibles en una organización.
Giga, filial propiedad de Forrester Research, INC., ha publicado recientemente, un informe, Vendor Scorecard: Selecting Software for Predictive Analytics, en el que analiza el software de SAS y de otros tres proveedores. Para la realización del informe, se tuvieron en cuenta distintos factores como la estrategia, las propiedades de los productos, la usabilidad, los precios, las opciones de contratación y la viabilidad y mantenimiento. SAS obtuvo muy buenos resultados con su premiado producto SAS® Enterprise Miner™, que es la oferta más completa de Data Mining en el mercado.
Dentro del área de la estrategia del proveedor, el informe establece que los potenciales compradores de productos de software para análisis predictivo deberían apostar por SAS por su seria y comprometida dedicación al análisis de datos. El informe pone de manifiesto que SAS® Enterprise Miner™ tiene el más completo portafolio de algoritmos para la modelización predictiva. Adicionalmente, apunta que la interoperabilidad de los metadatos con otras soluciones best-of-breed de SAS para ETL (extracción, transformación y carga), reporting y aplicaciones verticales, proporciona la compañía claras ventajas sobre sus competidores.
"Este informe muestra claramente el fuerte compromiso de SAS con el mercado del software de minería de datos", ha dicho Anne Milley, Directora de Estrategia de Inteligencia Analítica de SAS. "SAS suministra soluciones de software analítico que permiten a las compañías identificar fácilmente tendencias y relaciones que son determinantes – ayudándoles a adoptar decisiones de negocio críticas con seguridad. Por ello, consideramos que estamos en una buena posición para ayudar a nuestros clientes a encarar la necesidad creciente de realizar análisis avanzados, que son los que producen los mayores beneficios".
SAS® muestra pautas y tendencias, explica resultados conocidos e identifica factores que permiten asegurar efectos deseados. Con esta solución, las compañías pueden incrementar sus ingresos, reducir los costes y mejorar su competitividad. SAS Text Miner, producto añadido a SAS® Enterprise MinerTM, amplia sus capacidades de minería de datos proporcionando un juego de soluciones para poner al descubierto y extraer el conocimiento de una amplia variedad de documentos de texto, incluyendo e-mails, informes de venta y anotaciones realizadas por el personal de los call center. Integrar información basada en textos con datos estructurados enriquece las capacidades de modelización predictiva y proporciona nuevos almacenes de información valiosa para conducir el negocio e investigar potenciales iniciativas.
SAS posee la solución más completa del mercado para sostener el proceso completo de creación de inteligencia dentro de todas las áreas de negocio – desde el área de resultados corporativos, pasando por el de Recursos Humanos, Financiero, el de Ventas o el de Marketing. Esta infraestructura de inteligencia empresarial integral, conocida como SAS Intelligence Architecture, otorga al mercado la agilidad que necesita para adaptarse a los cambios que se producen en el mismo. Construyendo sobre inversiones existentes en tecnologías de información, SAS Intelligence Architecture permite a las compañías seguir respondiendo a las necesidades del mercado, de sus empleados, sus proveedores y de otros protagonistas del entorno.[2]
3.5.4. Spoke: Data Mining de tu correo electrónico.
Spoke es un programa de Data Mining para una agenda de correo (hasta ahí es fácil, los otros programas de redes de contacto también lo hacen), y también (aquí está la novedad) de todo tu correo. Cuando te das de alta extrae toda la información almacenada en OutlookÓ , Lotus NotesÓ o lo que estemos usando (incluidas cuentas de webmail). Detecta a quién hemos mandado correos, de quien los hemos recibido, con qué frecuencia, incluso quien estaba copiado en mensajes que te han enviado a ti. Con todo eso monta una base de datos salvaje de todos tus contactos directos e indirectos. Además, aplica un complejo algoritmo para clasificar la intensidad de la relación teniendo en cuenta muchos factores (cuántos datos de esa persona tienes en tu agenda: si tienes su empresa y puesto, si tienes su teléfono o dirección postal, cuántos correos has intercambiado, hace cuanto, etc. Todo esto lo presenta en una agenda, pero también en un buen mapa de contactos muy fácil de usar. Puedes seleccionar un contacto y ver a quién más conoce o quién te ha hablado de él (copiándolo en un correo dirigido a ti). Todo esto son funcionalidades en modo aislado.
Cuando conocemos otra gente que también lo tenga instalado, las posibilidades se multiplican. Podemos buscar personas que queramos contactar, o empresas, y te indican cuáles de tus contactos los conocen directa o indirectamente.
Tiene todavía algunos fallos. No importa bien los caracteres acentuados y hay que hacer bastante limpieza y consolidación si se desea tener una base de datos realmente operativa; demasiada gente tiene varias direcciones de e-mail.[3]
3.5.5. Data Mining y la medicina basada en la evidencia.
Con el advenimiento de los modernos sistemas tecnológicos de informática médica, los profesionales de la salud han podido tener acceso a un mundo insospechado de información actualizada y de forma veloz. La búsqueda bibliográfica por internet, merced a las bondades de Medline y otras librerías, permitió que el médico dedicara su tiempo en menesteres profesionales mientras la informática le conseguía la preciada documentación. Pero con el tiempo, surgió el problema del control de calidad y seriedad científica de la información en medicina, con lo cual la Medicina Basada en la Evidencia (MBE) apareció como el paladín de los que, con el pasar de los años, veíamos con grandes dudas escrito sobre especialidades médicas. A la primera visión surgió un auto-cuestionamiento de paranoia larvada, pero el análisis minucioso de la situación permitió detectar infinidad de procedimientos erróneamente elegidos, resultados criticables, seguridad epidemiológica ausente, y fue entonces cuando la MBE se consagró como la única forma de saber si las conductas estratégicas de los profesionales de la salud eran sensatas o arrastraban las costumbres sin fundamentos a través de los tiempos.
La MBE se puede sentir alimentada en el futuro por la información codificada y almacenada en un Data Warehouse de la Salud. Es escalofriante pensar en la recolección de datos codificados en las consultas médicas del mundo entero, donde cada enfermedad puede tener síntomas hasta ahora no sospechados, por la sencilla razón de que hasta ahora a nadie se le ocurrió atar los cabos sueltos de la información dispersa.
La revolución de la MBE puede encontrar aquí una fuente no sólo de inspiración, sino de confirmación o rechazo de viejas teorías que se perpetúan sin bases científicas ni estadísticas de valor. Un trabajo colaborativo multicéntrico mundial con protocolos de recolección de datos uniforme, permitiría obtener información de singular valor como para permitir afirmar que la enfermedad XXX se presenta con el síntoma YYY en el x% de los casos.
Solamente hay que querer sacar provecho de la información disponible. A la información existente en salud, el mundo le queda chico. Con el Data Mining de la base de datos de síntomas clínicos, la MBE puede llegar a decirnos que lo que creíamos que era de una forma, en realidad es de otra forma. Las raíces de la medicina clásica pueden llegar a temblar a la luz del "nuevo conocimiento" bajo el paraguas de la MBE, y dentro del Data Warehouse de la salud.[16]
3.5.6. Aplicación del FBI para detectar terroristas.
El FBI analizará las bases de datos comerciales para detectar terroristas. A principios del mes de julio de 2002, el director del Federal Bureau of Investigation (FBI), John Aschcroft, anunció que el Departamento de Justicia comenzará a introducirse en la vasta cantidad de datos comerciales referentes a los hábitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una acción. Algunos expertos aseguran que, con esta información, el FBI unirá todas las bases de datos probablemente mediante el número de la Seguridad Social y permitirá saber si una persona fuma, qué talla y tipo de ropa usa, su registro de arrestos, su salario, las revistas a las que está suscrito, su altura y peso, sus contribuciones a la Iglesia, grupos políticos u organizaciones no gubernamentales, sus enfermedades crónicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra, si tomó clases de vuelo o si tiene cuentas de banco abiertas, entre otros. La inversión inicial ronda los setenta millones de dólares estadounidenses para consolidar los almacenes de datos, desarrollar redes de seguridad para compartir información e implementar nuevo software analítico y de visualización.
En otras palabras, el FBI pretende vigilar a ciertos clientes de comercios alrededor de todo el mundo para detectar, por medio de Data Mining, cuáles de ellos tienen el perfil de terroristas y así tomar medidas de seguridad.[14]
3.5.7. Detección de fraudes en las tarjetas de crédito.
En 2001, las instituciones financieras a escala mundial perdieron más de 2000 millones de dólares estadounidenses en fraudes con tarjetas de crédito y débito. El Falcon Fraud Manager es un sistema inteligente que examina transacciones, propietarios de tarjetas y datos financieros para detectar y mitigar fraudes. En un principio estaba pensado, en instituciones financieras de Norteamérica, para detectar fraudes en tarjetas de crédito. Sin embargo, actualmente se le han incorporado funcionalidades de análisis en las tarjetas comerciales, de combustibles y de débito. El sistema Falcon ha permitido ahorrar más de seiscientos millones de dólares estadounidenses cada año y protege aproximadamente más de cuatrocientos cincuenta millones de pagos con tarjeta en todo el mundo –aproximadamente el sesenta y cinco por ciento de todas las transacciones con tarjeta de crédito.[14]
3.5.8. Descubriendo el por qué de la deserción de clientes de una compañía operadora de telefonía móvil.
Este estudio fue desarrollado en una operadora española que básicamente situó sus objetivos en dos puntos: el análisis del perfil de los clientes que se dan de baja y la predicción del comportamiento de sus nuevos clientes. Se analizaron los diferentes históricos de clientes que habían abandonado la operadora (12,6%) y de clientes que continuaban con su servicio (87,4%). También se analizaron las variables personales de cada cliente (estado civil, edad, sexo, nacionalidad, etc.). De igual forma se estudiaron, para cada cliente, la morosidad, la frecuencia y el horario de uso del servicio, los descuentos y el porcentaje de llamadas locales, interprovinciales, internacionales y gratuitas. Al contrario de lo que se podría pensar, los clientes que abandonaban la operadora generaban ganancias para la empresa; sin embargo, una de las conclusiones más importantes radicó en el hecho de que los clientes que se daban de baja recibían pocas promociones y registraban un mayor número de incidencias respecto a la media. De esta forma se recomendó a la operadora hacer un estudio sobre sus ofertas y analizar profundamente las incidencias recibidas por esos clientes. Al descubrir el perfil que presentaban, la operadora tuvo que diseñar un trato más personalizado para sus clientes actuales con esas características. Para poder predecir el comportamiento de sus nuevos clientes se diseñó un sistema de predicción basado en la cantidad de datos que se podía obtener de los nuevos clientes comparados con el comportamiento de clientes anteriores.[14]
3.5.9. Prediciendo el tamaño de las audiencias televisivas.
La British Broadcasting Corporation (BBC) del Reino Unido emplea un sistema para predecir el tamaño de las audiencias televisivas para un programa propuesto, así como el tiempo óptimo de exhibición. El sistema utiliza redes neuronales y árboles de decisión aplicados a datos históricos de la cadena para determinar los criterios que participan según el programa que hay que presentar. La versión final se desempeña tan bien como un experto humano con la ventaja de que se adapta más fácilmente a los cambios porque es constantemente re-entrenada con datos actuales.
3.5.10. Aplicación en la universidad.
Se pretende conocer si los recién titulados de una universidad llevan a cabo actividades profesionales relacionadas con sus estudios. Se hizo un estudio sobre los recién titulados de la carrera de Ingeniería en Sistemas Computacionales del Instituto Tecnológico de Chihuahua, en México. Se quería observar si sus recién titulados se insertaban en actividades profesionales relacionadas con sus estudios y, en caso negativo, se buscaba saber el perfil que caracterizó a los ex-alumnos durante su estancia en la universidad. El objetivo era saber si con los planes de estudio de la universidad y el aprovechamiento del alumno se hacía una buena inserción laboral o si existían otras variables que participaban en el proceso. Dentro de la información considerada estaba el sexo, la edad, la escuela de procedencia, el desempeño académico, la zona económica donde tenía su vivienda y la actividad profesional, entre otras variables. Se descubrió que existían cuatro variables que determinaban la adecuada inserción laboral, que son citadas de acuerdo con su importancia: zona económica donde habitaba el estudiante, colegio de donde provenía, nota al ingresar y promedio final al salir de la carrera. A partir de estos resultados, la universidad tendrá que hacer un estudio socioeconómico sobre grupos de alumnos que pertenecían a las clases económicas bajas para dar posibles soluciones, debido a que tres de las cuatro variables no dependían de la universidad.[14]
3.5.11. Investigaciones espaciales: Proyecto SKYCAT.
Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II) coleccionó tres terabytes de imágenes que contenían aproximadamente dos millones de objetos en el cielo. Tres mil fotografías fueron digitalizadas a una resolución de 16 bits por píxel con 23040 x 23040 píxeles por imagen. El objetivo era formar un catálogo de todos esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de agrupación (clustering) y árboles de decisión para poder clasificar los objetos en estrellas, planetas, sistemas, galaxias, etc. con una alta confiabilidad. Los resultados han ayudado a los astrónomos a descubrir dieciséis nuevos quásars (señales radiales lejanas) con corrimiento hacia el rojo que los incluye entre los objetos más lejanos del universo y, por consiguiente, más antiguos. Estos quásars son difíciles de encontrar y permiten saber más acerca de los orígenes del universo.[14]
3.5.12. En clubes deportivos.
El AC de Milán utiliza un sistema inteligente para prevenir lesiones. El club comenzará a usar redes neuronales para prevenir lesiones y optimizar el acondicionamiento de cada atleta. Esto ayudará a seleccionar el fichaje de un posible jugador o a alertar al médico del equipo de una posible lesión. El sistema, creado por Computer Associates International, es alimentado por datos de cada jugador, relacionados con su rendimiento, alimentación y respuesta a estímulos externos, que se obtienen y analizan cada quince días. El jugador lleva a cabo determinadas actividades que son monitoreadas por veinticuatro sensores conectados al cuerpo y que transmiten señales de radio que posteriormente son almacenadas en una base de datos. Actualmente el sistema dispone de 5000 casos registrados que permiten predecir alguna posible lesión. Con ello, el club intenta ahorrar dinero evitando comprar jugadores que presenten una alta probabilidad de lesión, lo que haría incluso renegociar su contrato. Por otra parte, el sistema pretende encontrar las diferencias entre las lesiones de atletas de ambos sexos, así como saber si una determinada lesión se relaciona con el estilo de juego de un país concreto donde se practica el fútbol.
Los equipos de la NBA también utilizan aplicaciones inteligentes para apoyar a su cuerpo de entrenadores. El Advanced Scout es un software que emplea técnicas de Data Mining y que han desarrollado investigadores de IBM para detectar patrones estadísticos y eventos raros. Tiene una interfaz gráfica muy amigable orientada a un objetivo muy específico: analizar el juego de los equipos de la National Basketball Association (NBA).El software utiliza todos los registros guardados de cada evento en cada juego: pases, encestes, rebotes y doble marcaje (double team) a un jugador por el equipo contrario, entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no detectan cuando observan el juego en vivo o en película. Un resultado interesante fue uno hasta entonces no observado por los entrenadores de los Knicks de Nueva York. El doble marcaje a un jugador puede generalmente dar la oportunidad a otro jugador de encestar más fácilmente. Sin embargo, cuando los Bulls de Chicago jugaban contra los Knicks, se encontró que el porcentaje de encestes después de que al centro de los Knicks, Patrick Ewing, le hicieran doble marcaje era extremadamente bajo, indicando que los Knicks no reaccionaban correctamente a los dobles marcajes. Para saber el porqué, el cuerpo de entrenadores estudió cuidadosamente todas las películas de juegos contra Chicago. Observaron que los jugadores de Chicago rompían su doble marcaje muy rápido de tal forma que podían tapar al encestador libre de los Knicks antes de prepararse para efectuar su tiro. Con este conocimiento, los entrenadores crearon estrategias alternativas para tratar con el doble marcaje. La temporada pasada, IBM ofreció el Advanced Scout a la NBA, que se convirtió así en un patrocinador corporativo. La NBA dio a sus veintinueve equipos la oportunidad de aplicarlo. Dieciocho equipos lo están haciendo hasta el momento obteniendo descubrimientos interesantes.[14]
CAPITULO IV
EXTENSIONES DE DATA MINING.[14]
En este capítulo veremos dos extensiones de Data Mining en una forma muy vaga, los hemos incluido ya que creímos importantes las contribuciones de estos procesos, en la sección 4.1 hablamos del Web Mining y finalmente en el apartado 4.2 hacemos mención del Text Mining, veremos de forma general su descripción y como es que pueden ser utilizados, lo cual incluye algunos ejemplos muy simples.
4.1. Web Mining.
Una de las extensiones del Data Mining consiste en aplicar sus técnicas a documentos y servicios del Web, lo que se llama Web Mining (minería de web). Todos los que visitan un sitio en internet dejan huellas digitales (direcciones de IP, navegador, galletas, etc.) que los servidores automáticamente almacenan en una bitácora de accesos (logs). Las herramientas de Web Mining analizan y procesan estos logs para producir información significativa, por ejemplo, cómo es la navegación de un cliente antes de hacer una compra en línea. Debido a que los contenidos de Internet consisten en varios tipos de datos, como texto, imagen, vídeo, metadatos o hiperligas, investigaciones recientes usan el término Multimedia Data Mining (minería de datos multimedia) como una instancia del Web Mining para tratar ese tipo de datos. Los accesos totales por dominio, horarios de accesos más frecuentes y visitas por día, entre otros datos, son registrados por herramientas estadísticas que complementan todo el proceso de análisis del Web Mining. Normalmente, el Web Mining puede clasificarse en tres dominios de extracción de conocimiento de acuerdo con la naturaleza de los datos:
- Web Content Mining (minería de contenido web). Es el proceso que consiste en la extracción de conocimiento del contenido de documentos o sus descripciones. La localización de patrones en el texto de los documentos, el descubrimiento del recurso basado en conceptos de indexación o la tecnología basada en agentes también pueden formar parte de esta categoría.
- Web Structure Mining (minería de estructura web). Es el proceso de inferir conocimiento de la organización del WWW y la estructura de sus ligas.
- Web Usage Mining (minería de uso web). Es el proceso de extracción de modelos interesantes usando los logs de los accesos al web.
Algunos de los resultados que pueden obtenerse tras la aplicación de los diferentes métodos de Web Mining son:
- El ochenta y cinco por ciento de los clientes que acceden a /productos/home.html y a /productos/noticias.html acceden también a /productos/historias_suceso.html. Esto podría indicar que existe alguna noticia interesante de la empresa que hace que los clientes se dirijan a historias de suceso. Igualmente, este resultado permitiría detectar la noticia sobresaliente y colocarla quizá en la página principal de la empresa.
- Los clientes que hacen una compra en línea cada semana en /compra/producto1.html tienden a ser de sectores del gobierno. Esto podría resultar en proponer diversas ofertas a este sector para potenciar más sus compras.
- El sesenta por ciento de los clientes que hicieron una compra en línea en /compra/producto1.html también compraron en /compra/producto4.html después de un mes. Esto indica que se podría recomendar en la página del producto 1 comprar el producto 4 y ahorrarse el costo de envío de este producto.
Los anteriores ejemplos nos ayudan a formarnos una pequeña idea de lo que podemos obtener. Sin embargo, en la realidad existen herramientas de mercado muy poderosas con métodos variados y visualizaciones gráficas excelentes.
4.2. Text Mining.
Con billones de páginas en la red, se requieren de nuevas tecnologías para encontrar, clasificar y detectar particulares patrones en la información disponible. La esencia de los métodos de la minería de datos aplicados a los datos numéricos, puede también ser aplicada a datos de texto.
Estudios recientes indican que el ochenta por ciento de la información de una compañía está almacenada en forma de documentos. Sin duda, este campo de estudio es muy vasto, por lo que técnicas como la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automático, entre otras, apoyan al Text Mining (minería de texto). En ocasiones se confunde el Text Mining con la recuperación de la información (Information Retrieval o IR). Ésta última consiste en la recuperación automática de documentos relevantes mediante indexaciones de textos, clasificación, categorización, etc. Generalmente se utilizan palabras clave para encontrar una página relevante. En cambio, el Text Mining se refiere a examinar una colección de documentos y descubrir información no contenida en ningún documento individual de la colección; en otras palabras, trata de obtener información sin haber partido de algo. Una aplicación muy popular del Text Mining es: Don Swanson intenta extraer información derivada de colecciones de texto. Teniendo en cuenta que los expertos sólo pueden leer una pequeña parte de lo que se publica en su campo, por lo general no se dan cuenta de los nuevos desarrollos que se suceden en otros campos. Así, Swanson ha demostrado cómo cadenas de implicaciones causales dentro de la literatura médica pueden conducir a hipótesis para enfermedades poco frecuentes, algunas de las cuales han recibido pruebas de soporte experimental. Investigando las causas de la migraña, dicho investigador extrajo varias piezas de evidencia a partir de títulos de artículos presentes en la literatura biomédica. Algunas de esas claves fueron:
- El estrés está asociado con la migraña.
- El estrés puede conducir a la pérdida de magnesio.
- Los bloqueadores de canales de calcio previenen algunas migrañas.
- El magnesio es un bloqueador natural del canal de calcio.
- La depresión cortical diseminada (DCD) está implicada en algunas migrañas.
- Los niveles altos de magnesio inhiben la DCD.
- Los pacientes con migraña tienen una alta agregación plaquetaria.
- El magnesio puede suprimir la agregación plaquetaria.
Estas claves sugieren que la deficiencia de magnesio podría representar un papel en algunos tipos de migraña, una hipótesis que no existía en la literatura y que Swanson encontró mediante esas ligas. De acuerdo con Swanson, estudios posteriores han probado experimentalmente esta hipótesis obtenida por Text Mining con buenos resultados.
CAPITULO V
Hemos llegado al final de este documento y es turno de dar algunos puntos de vista sobre todo lo que hemos estado hablando a lo largo de este trabajo y ver qué es lo que viene después de Data Mining, comenzando con la sección 5.1, Competencia y Oportunidades en la cual diremos cuáles son las oportunidades que hay actualmente sobre el uso de Data Mining, si es provechoso o no, La próxima generación, sección 5.2, nos habla del futuro de Data Mining y finalmente en el punto 5.3 daremos, como autores de este trabajo, algunos Comentarios Finales.
5.1. Competencia y Oportunidades.
Saber hacer buen uso de los datos de una empresa, puede ser la clave del éxito, en estos tiempos inciertos, altamente competitivos. Si no se dispone de un Director de Sistemas en una compañía esta no se debe dejar abrumar por la amplia oferta y además tiene que pensar siempre, antes de decidir, el beneficio de su inversión.
Si hubiera que hacer una recomendación prioritaria en todo lo relativo a las tecnologías de información en la empresa, esta es sin duda que no se debe dejar impresionar por el argot. Se mezclan conceptos generalmente admitidos en el mundo de la gestión empresarial, con términos y procesos de consultoras, junto a productos de proveedores especializados y marcas comerciales.
Con tantos ingredientes y tan heterogéneos, no es de extrañar que se piense que esto es únicamente cosa de expertos. Pero ni es oro todo lo que reluce, ni todas las propuestas son buenas o necesarias para los intereses de una empresa. Lo que sí se puede descubrir, es que hacer un uso práctico y eficiente de los datos de los clientes, proveedores, productos, o empleados, con poco más que las herramientas y recursos de los que ya dispone, es posible.
Hay una gran amplia competencia en el mundo empresarial, es por eso que estas requieren transformar los datos con los que cuentan a proyectos, ideas, etc, para obtener los objetivos que ellas mismas se plantean, y emprender campañas de marketing que en verdad los beneficien, y no solo a las compañías, sino que esto se traduzca en un servicio al cliente de calidad.
Es obvio que a un analista le tomaría varias vidas, por ejemplo, el examinar detalladamente y desde una perspectiva multidimensional las millones de transacciones diarias de una gran cadena de supermercados para encontrar patrones, regularidades o interrelaciones importantes. (No nos olvidemos que la mayoría de los humanos somos mejores detectando anomalías que infiriendo regularidades o relaciones en grandes conjuntos de datos.) Pero lo tiene que hacer. Afortunadamente, cuenta con modernas herramientas para extraer las tendencias tanto pasadas como futuras.
Sin embargo, es importante resaltar que no se realizan grandes hallazgos todos los días. Es necesario utilizar intensivamente las herramientas de Data Mining para descubrir información valiosa, que por cierto es muy escasa. Por eso el conjunto Data Mining-Data Warehouse, que es computacionalmente intensivo, puede beneficiarse con un hardware más poderoso. Incluso las computadoras paralelas aceleran el proceso de búsqueda ofreciendo la posibilidad de realizar múltiples preguntas simultáneas.[15]
Las oportunidades dentro de Data Mining bien pueden ser muchas, o todo lo contrario, lo más importante es saber hacer un uso adecuado de herramientas Data Mining así como de otras auxiliares, a saber, Data Warehouse, si se sabe emplear bien este tipo de tecnologías se tendrán una infinidad de oportunidades a nivel empresarial e incluso en otras áreas, no tiene caso contar con alta tecnología si esta es mal empleada, por ello podemos decir que, hay que saber tomar decisiones para que estas nos ayuden a tomar otras decisiones que serán más importantes y dejarán más beneficios a una cierta compañía. Así mismo, hay que explorar más a fondo todos los recursos con los que contamos actualmente para ver cuales son asequibles y utilizarlos tal vez en conjunto para sacar mayores ganancias.
5.2. La próxima generación.
En muchas áreas del saber, el conocimiento se ha venido obteniendo por el clásico método hipotético-deductivo, a partir de un conjunto de observaciones y de unos conocimientos previos, la intuición y la experiencia del investigador le conduce a formular las hipótesis. Sin embargo, esta intuición resulta casi imposible de llevar a cabo cuando, en vez de observaciones aisladas y casuales, se analizan millones de datos de grandes bases de datos. Es evidente que el proceso de complejidad creciente experimentado por la humanidad en los últimos tiempos supera a la mente de cualquier ser humano, escapa plenamente a su control. El considerable crecimiento de la información llega a obnubilar la mente, produce stress, sobrecarga la memoria, crea deficiencias en la atención y genera estados de inmovilidad. No obstante, las computadoras pueden manejar volúmenes de información infinitamente superiores a los que la mente humana puede dominar, considerando un número inhumanamente grande de variables simultáneas y haciéndolo más rápidamente de lo que jamás ningún ser humano podrá realizar; y esto se irá acrecentando en los próximos años, hemos visto como por algunas pocas décadas las computadoras han evolucionado a algo que hace 50 o 60 años era impensable por muchos.
Actualmente, el mejor uso del Data Mining es aquel en donde el analista formula las consultas específicas a fin de que el sistema convalide o desmienta las hipótesis según los datos. Sin embargo, la tecnología continuará automatizando cada vez más el proceso de decisión en sí mismo, haciendo que las futuras herramientas de descubrimiento detecten las relaciones y generen esencialmente las hipótesis.
Como último objetivo todavía lejano se intenta crear un sistema de descubrimiento de conocimiento de propósito general que, a medida que se vuelva más complejo, agregue sus propios aportes. A través del análisis cuidadoso, del examen meticuloso y de la asociación de datos sin una conexión obvia, podría ser capaz -por ejemplo- de descubrir nuevos tratamientos para enfermedades u originales ideas para explicar el origen del universo. Con respecto a este concepto, el futurólogo A. Toffler hace notar que la computadora puede sugerir soluciones imaginativas para ciertos problemas al descubrir relaciones nuevas o que hasta entonces habían pasado inadvertidas. Se podría pedir a la computadora que "piense lo impensable", que piense en lo que aun jamás ha sido pensado.
En poco tiempo más, el Data Mining puede volverse tan común y fácil usar como el e-mail. Podremos utilizar estas herramientas de forma masiva para analizar datos a gran escala y encontrar, por ejemplo, la mejor tarifa aérea a Cancún, conseguir el número telefónico de un antiguo compañero de clase, o encontrar los precios más económicos de las bordadoras de césped. El software se dará cuenta dónde buscar, cómo evaluar lo que encuentra y cuándo dejar de buscar. Nuestros ayudantes cognitivos pueden volverse tan indispensables como lo es ahora el teléfono. [15]
La pregunta que ahora nos hacemos es ¿Las computadoras ahora pensarán por nosotros?, una posible respuesta es que, nosotros debemos hacer que ellas piensen, o mejor dicho, descubran lo que notros queremos que descubran, que sirvan para lo que nosotros queremos que sirvan, el uso de tecnologías como Data Mining conlleva muchas facilidades hacia la vida de los seres humanos, las computadoras se han hecho para facilitar nuestra vida cotidiana no para complicarla y Data Mining representa una de estas facilidades, la cual por supuesto evolucionará.
5.3. Comentarios Finales.
Hemos visto, a lo largo de este trabajo, qué es un Data Warehouse, Data Mining, y cuáles son sus principales aplicaciones, entre otras cosas. Contamos, en la actualidad con herramientas muy poderosas que se están introduciendo cada vez más en el mundo empresarial y científico, no obstante, queda mucho camino por recorrer, hablamos de tecnología, de oportunidades, de cómo ha evolucionado dicha tecnología y lo que esperamos de ella, sin embargo, su campo de aplicación sigue siendo un tanto reducido en países de los llamados tercer mundistas y en algunas otras áreas diferentes a las empresariales.
Data Mining como un proceso de descubrimiento de información tiene demasiadas ventajas que sus defectos casi no los podemos ver, con esto queremos decir que no todo en esta vida es del todo bueno, Data Mining y otras tecnologías nos están llevando a una mayor facilidad en la vida de los humanos como lo acotamos en la sección anterior, pero, lamentablemente, estas facilidades todavía no llegan a todos lados y no se utilizan en todas sus formas, como vimos se utilizan demasiado en áreas empresariales, generando riqueza a los que ya son ricos, la cuestión aquí es que cómo vamos a emplear tales herramientas para obtener un beneficio mucho más grande aún, esto es, usar las tecnologías para contrarrestar todos los efectos negativos que hemos provocado como seres humanos.
Es momento de responder a ciertos cuestionamientos como, si Data Mining es tan eficaz generando oportunidades empresariales ¿cómo lo podemos utilizar, por ejemplo, para combate a la pobreza, al desempleo, a mejorar la calidad de vida de los seres humanos, a la educación?, a pesar de que mencionamos ejemplos sobre el uso de Data Mining en el contexto universitario y médico aún no hay nada tan relevante dentro de esas áreas y que brinden una verdadera ayuda en aspectos muy diferentes a los empresariales, a los cuales Data Mining esta todavía muy centrado, esta fue una de las razones por las cuales este trabajo lo enfocamos mucho al nivel empresarial y no específicamente a otros, basta con buscar en internet información sobre Data Mining y veremos como la gran mayoría de los resultados obtenidos se enfocan a mercadeo. Data Mining bien puede encontrar otros caminos por los cuales abrirse paso y no solo unos cuantos para unos cuantos.
Tal vez suene un tanto burdo pero ahora a Data Mining lo debemos usar para descubrir al mismo Data Mining ("Descubrir Data Mining usando Data Miing"), esto es, saber en qué más podemos ocuparlo, conocer que otras áreas de aplicación podemos encontrar y sacarles provecho al máximo.
Este trabajo tratamos de elaborarlo de la mejor manera posible, a pesar de ello, sabemos que bien puede tener algunos defectos, pero esperamos que sea de utilidad para nosotros mismos en posteriores ocasiones y que nos deje la más grata experiencia.
[1]. (2002) Data Mining and Knowledge Discovery. An International Journal.
[2]. (2004) SAS supera a sus competidores en la categoría de Data Mining. http://www.sas.com/index.html
[3]. (2004) Spoke: Data Mining de tu correo electrónico.
http://www.merodeando.com/blog/archivos/2004/01/31-spoke-data-mining-de-tu-correo-electronico.php
[4]. (2005) MLC++. http://www.sgi.com/tech/mlc/
[5]. (2005) Weka 3: Data Mining Software in Java. http://www.cs.waikato.ac.nz/ml/weka/
[6]. (2005) Wikipedia, la enciclopedia libre. Data Mining. http://es.wikipedia.org/wiki/Data_mining
[7]. (2005) Wikipedia, la enciclopedia libre. Data Warehouse. http://es.wikipedia.org/wiki/Data_warehouse
[8]. (2005) XELOPES Library – Product Info. http://www.prudsys.com/Produkte/Algorithmen/Xelopes/
[9]. Berberena González, Viterbo H. (2004) La Minería de Datos en la Construcción de Modelos de Soporte para la Toma de Decisiones Estratégicas. http://www.bettermanagement.com/seminars/seminar.aspx?l=9486#PresenterBio#PresenterBio
[10]. Casares, Claudio. (2005) Data Warehousing. http://programacion.com/Inicio/tutoriales/teoria/teoriadebasesdedatos/datawarehousing
[11]. Gondar Nores, José Emilio. (2004) Creación de un Proyecto de Data Mining: Fases. www.estadistico.com
[12]. Guerrero, Jaime. (2004) ERP al alcance de las PyMes. http://www.gestiopolis.com/recursos/documentos/fulldocs/ger1/erppymes.htm#fig1
[13]. Martínez Pelayo, Oliver Eduardo. (2004) Factores clave de éxito: sistemas y tecnologías de información; ventajas y problemáticas en la industria. www.gda.itesm.mx/lcpf
[14]. Molina Félix, Luis Carlos. (2002) Data Mining: torturando a los datos hasta que confiesen. http://www.lsi.upc.es/~lcmolina/
[15]. Moriello, Sergio A. (2004) Data Mining: Oráculos de silicio, Buceando en un mar de información. http://www.redcientifica.com/autores/smoriello.html
[16]. Porta, Carlos Alberto. (2004) Data mining y la medicina basada en la evidencia. http://merodeando.com/mt/mt-tb.cgi/2534
[17]. Royo, José A. (2003) Data Warehouse and Data Mining. http://www.cps.unizar.es/~jaroyo
[18]. Soriano Ulloa, Marco Antonio. (2004) Nuevas Tendencias de Bases de Datos. Benemérita Universidad Autónoma de Puebla, Facultad de Ciencias de la Computación.
[19]. Urdaneta, Elymir. (1997) El Data Mining. www.monografias.com
[20].Valcárcel Asencios, Violeta. (2004) Data Mining y el descubrimiento del conocimiento. www.unmsm.edu.pe
*Todos los artículos de internet que aquí se presentan fueron consultados el día 8 de Junio de 2005.
Luis Antonio Fernández Aldana
Estudiante del Sexto. Cuatrimestre de Ingeniería en Ciencias de la Computación.
Benemérita Universidad Autónoma de Puebla.
Facultad de Ciencias de la Computación.
27 / Junio / 2005.
Comentarios a:
Página anterior | Volver al principio del trabajo | Página siguiente |