Descargar

Data Mining: Minería de datos


  1. Introducción
  2. La minería de datos
  3. Métodos de la minería de datos
  4. Una arquitectura para data mining
  5. Algoritmos de extracción de conocimiento
  6. Extensiones del data mining
  7. Business intelligence
  8. Conclusiones
  9. Bibliografía

edu.red

Introducción

El conocimiento dentro de una organización es importante en la medida en que puede ayudar a conocer y comprender el comportamiento de ella misma y del entorno y favorecer la toma de decisiones. Y en la base de esto subyace la información.

Gracias a la minería de datos la información oculta en las bases de datos puede ser traída a la superficie. El nombre "minería de datos" –Data Mining, en el inglés original- viene de las similitudes entre la búsqueda de información de gran valor para el negocio en grandes bases de datos y la minería en las venas de oro en las montañas. Esto podría inducir al error de restringir su objetivo a la búsqueda y extracción de fragmentos útiles de información ya almacenada explícitamente. En cambio, la minería de datos se ocupa principalmente de la construcción de información no representada explícitamente en los datos.

En el nuevo mundo tecnológico, la potencia de los equipos informáticos y el desarrollo de software han permitido la creación de grandes bases de datos de clientes, en las que la empresa puede registrar, y lo hace, todas las operaciones que estos realizan. Toda la información es almacenada en grandes bases de datos. Nace de esta forma el Data Warehousing, una disciplina que se dedica a la ordenación de las cantidades masivas de datos que actualmente se recogen en muy diferentes ámbitos

Mientras hace 30 o 40 años un conjunto de datos ya se consideraba enorme si contenía varios miles de registros con unas pocas variables, en la actualidad las bases de datos de una organización pueden contener millones de registros con miles de variables.

La Minería de Datos

La Minería de Datos (MD) aparece en los años 80 como una oportunidad para las empresas: la de tratar con volúmenes masivos de datos recogidos para extraer de ellos información sobre los clientes que resultara útil en proyectos de marketing. La MD es una disciplina que proporciona herramientas para "aprender de los datos", convirtiendo los datos en información y conocimiento.

Se suele considerar que la MD es una etapa crucial de un proceso más complejo denominado KDD (Knowledge Discovery in Databases, 1989), "descubrimiento de conocimiento en bases de datos" (que incluye: almacenamiento, selección de datos, depuración y preprocesado, transformación y reducción, la propia minería de datos, selección de modelos, evaluación e interpretación, toma de decisiones basadas en el conocimiento adquirido y evaluación de resultados). Todas las etapas descritas del KDD son, en diferente medida, propias de cualquier análisis estadístico de datos; y siendo, como es, que la Estadística proporciona los métodos científicos básicos para aprender de los datos en un ambiente de incertidumbre, es obvia la estrecha relación entre Minería de Datos y Estadística.

Y, ¿por qué no decir entonces que se hace Estadística, en lugar de KDD o MD? Los nuevos nombres son más "fashion" y hacen pensar que tratamos con nuevas ramas científicas para la adquisición de conocimiento, en ocasiones asociadas en exclusiva a la Informática, sin cuya aportación sería imposible su aplicación; pero la mayoría de los métodos utilizados son viejos conocidos, y los otros solo constituyen nuevas técnicas sobrevenidas del desarrollo natural del pensamiento científico, de la tecnología y de su interacción, lo que permite el manejo de grandes bases de datos y también la aplicación de métodos aún más sofisticados para el ajuste de modelos en este nuevo contexto de mayor desarrollo tecnológico.

Las metas del KDD son:

  • Procesar automáticamente grandes cantidades de datos crudos.

  • Identificar los patrones más significativos y relevantes.

  • Presentarlos como conocimiento apropiado para satisfacer las metas del usuario.

edu.red

La MD busca patrones (información) en los datos, mediante todo tipo de herramientas estadísticas e informáticas, muchas de las cuales se engloban en el ámbito del Machine Learning. La mecanización del "aprendizaje" precisa del uso de máquinas, ordenadores potentes, capaces de llevar a cabo operaciones complejas repetitivas con una gran rapidez. Pero los ordenadores no "aprenden", solo ejecutan los programas, que los expertos han sido capaces de desarrollar, de una forma automática; y esto no es aún suficiente: no se puede hacer MD, ni Estadística, ni casi nada de interés, aplicando simplemente procedimientos automáticos.

El proceso de descubrimiento de conocimiento en bases de datos involucra varios pasos:

1. Entender el dominio de aplicación, el conocimiento relevante a usar y las metas del usuario.

2. Seleccionar el conjunto de datos y enfocar la búsqueda en subconjuntos de variables o muestras de datos donde realizar el proceso de descubrimiento.

3. Filtrar (limpiar) y pre-procesar datos, diseñando una estrategia adecuada para manejar ruido, valores incompletos, secuencias de tiempo, etc.

4. Reducir datos y proyecciones para disminuir el número de variables a considerar.

5. Seleccionar la tarea de descubrimiento a realizar, por ejemplo: clasificación, agrupamiento, regresión, etc.

6. Seleccionar el o los algoritmos a utilizar.

7. Llevar a cabo el proceso de minería de datos.

8. Interpretar los resultados y posiblemente regresar a algún paso anterior. Esto puede involucrar repetir el proceso, quizás con otros datos, otros algoritmos, otras metas y otras estrategias.

9. Incorporar el conocimiento descubierto al sistema (normalmente para mejorarlo) lo cual puede incluir resolver conflictos potenciales con el conocimiento existente.

Métodos de la Minería de Datos

Los métodos de "aprendizaje" empleados en la MD suelen dividirse en "supervisados" y "no supervisados". Los primeros incluyen fundamentalmente procedimientos de clasificación o análisis discriminante, regresión y predicción, mientras que entre los no supervisados se encuentran procedimientos de análisis factorial y de clustering.

Un método o regla de clasificación persigue la asignación de un objeto a una de un número fijado de clases especificadas, mientras que un método de clustering busca en qué clases homogéneas es "razonable" separar un grupo de objetos. Una regla de clasificación se "aprende" de la observación de las características de un conjunto de objetos (conjunto de entrenamiento) cuya pertenencia a las clases es conocida. La regla es usada para clasificar nuevos objetos de los que se desconoce a qué clase pertenecen.

Existen numerosos métodos de clasificación, de utilidad en situaciones diversas. En cualquier caso es importante la valoración de la regla, mediante la estimación de, por ejemplo, la probabilidad de clasificación incorrecta. Si esto se hace con la clasificación del propio conjunto de entrenamiento obtendremos una subestimación de la probabilidad anterior. Una estimación insesgada se obtiene mediante el uso de un conjunto "test", con el que podemos probar el funcionamiento de la regla. Otro procedimiento útil es el de validación cruzada.

Para establecer una regla de clustering se define una disimilaridad entre objetos, procediendo a agrupar estos en diferentes números de clusters o clases, de forma que los objetos de cada cluster sean lo más similares posible entre sí, pero lo más diferentes posible de los de otros clusters.

Los algoritmos más populares son los basados en k-medias y los de tipo jerárquico acumulativo. El resultado jerárquico puede verse en un gráfico (dendograma) que nos permite visualizar los clusters factibles así como seleccionar el número de estos. La caracterización de los clusters obtenidos mediante variables explicativas puede ser del máximo interés.

Otros métodos de la MD se engloban en lo que algunos han dado en llamar "Soft Computing", en referencia al empleo de métodos que permitan obtener soluciones aceptables de bajo costo computacional, y en un intento de emular algunas propiedades del cerebro humano, como la capacidad de este para resolver problemas del mundo real mal definidos o formulados de manera imprecisa, algo a lo que ninguna máquina es capaz de aproximarse.

Redes bayesianas, support vector machine, bagging, boosting, fuzzy sets, rough sets, redes neuronales, algoritmos genéticos, computación evolutiva,.son otros términos sugerentes con los que se denominan algunos de los métodos en boga empleados en la MD.

Uso de la Minería de Datos

Las aplicaciones de la MD son muy numerosas y es un área en expansión: desde el más clásico análisis de la "cesta de la compra", hasta la investigación del genoma, pasando por aplicaciones a la detección del fraude, las aplicaciones espaciales, el web mining, el text mining, la bioinformática o el estudio de la pérdida de clientes.

No obstante, la MD no es la panacea universal; el uso indiscriminado de la minería de datos conlleva problemas similares a los del uso poco cuidadoso de la estadística en el análisis de datos: ¿los patrones descubiertos son reales? ¿son debidos a meras fluctuaciones aleatorias? ¿Podemos usar argumentos probabilísticos en contextos a veces no aleatorios? ¿Puede haber sesgo de selección? ¿Cuál es la relación coste-beneficio?

Las tareas principales en la minería de datos son:

  • Análisis de dependencias

El valor de un elemento puede usarse para predecir el valor de otro. La dependencia puede ser probabilística, puede definir una red de dependencias o puede ser funcional. Se ha orientado mucho en los últimos años en el descubrimiento de redes bayesianas o causales en donde la dependencia se da a nivel estructural (dependencias e independencias entre variables) y cuantitativa (fuerza de las dependencias).

  • Identificación de clases (agrupamiento de registros en clases)

Identifica un conjunto finito de categorías o clusters que describen los datos (pueden ser exhaustivas y mutuamente exclusivas o jerárquicas y con superposiciones). Las clases pueden ser relevantes en sí o pueden servir como entradas a otros sistemas de aprendizaje. Se utilizan algoritmos de clustering. Normalmente el usuario tiene una buena capacidad de formar las clases y se han desarrollado herramientas visuales interactivas para ayudar al usuario.

  • Descripción de conceptos

Se resume un cierto patrón. La descripción puede ser característica (qué registros son comunes entre clases) o discriminatoria (cómo difieren las clases). La mayoría de los sistemas de aprendizaje encuentran descripciones de conceptos y están enfocados a clasificación: aprender una función que mapea (clasifica) un dato dentro de un conjunto de posibles clases predefinidas. Otra técnica relacionada es regresión: aprender una función que mapea un dato a una variable real. A veces se trata de encontrar descripciones compactas de subconjuntos de datos (media y varianza, leyes físicas) que los resuman de alguna forma.

  • Detección de desviaciones, casos extremos o anomalías

Detectar los cambios más significativos en los datos con respecto a valores pasados o normales. Sirve para filtrar grandes volúmenes de datos que son menos probables de ser interesantes. El problema está en determinar cuándo una desviación es significativa para ser de interés.

A su vez, las componentes básicas de los métodos de minería son:

  • Lenguaje de representación del modelo: Es muy importante que se sepan las suposiciones y restricciones en la representación empleada

  • Evaluación del modelo: En cuanto a predictibilidad, se basa en técnicas de validación cruzada (cross validation); en cuanto a calidad descriptiva del modelo se basan en principios como el de máxima verosimilitud (maximum likelihood) o en el principio de descripción mínima o MDL (minimum description length)

  • Método de búsqueda: Se puede dividir en búsqueda de parámetros de búsqueda del modelo, y determina los criterios que se siguen para encontrar los modelos (hipótesis)

Algunas de las técnicas más comúnmente empleadas en la minería de datos son:

  • Árboles de decisión y reglas de clasificación: realizan cortes sobre una variable (lo cual limita su expresividad, pero facilita su comprensión). Generalmente se usan técnicas heurísticas en su construcción.

  • Métodos de clasificación y regresiones no-lineales: tratan de ajustar combinaciones de funciones lineales y no-lineales, como las redes neuronales.

  • Métodos basados en ejemplos prototípicos: se hacen aproximaciones en base a los ejemplos o casos más conocidos. El problema es cómo determinar una medida de similitud adecuada.

  • Modelos gráficos de dependencias probabilísticas: básicamente redes bayesianas, en donde la evaluación se basa en probabilidades.

  • Modelos relacionales: Programación lógica inductiva (ILP), en donde la búsqueda del modelo se basa en lógica y heurísticas.

La minería de datos es una herramienta explorativa y no explicativa. Es decir, explora los datos para sugerir hipótesis. Es incorrecto aceptar dichas hipótesis como explicaciones o relaciones causa-efecto. Es necesario coleccionar nuevos datos y validar las hipótesis generadas ante los nuevos datos, y después descartar aquellas que no son confirmadas por los nuevos datos

Métodos de hacer minería de datos. Una manera de clasificarlos es por las técnicas aplicadas. En este caso, pueden ser:

Sin algoritmo de aprendizaje:

  • Consultas (SQL)

  • Procesamiento analítico en línea (OLAP)

  • Análisis estadístico (Correlación, regresiones,…)

Con algoritmo de aprendizaje:

  • Redes neuronales y algoritmos genéticos

Nuevos algoritmos:

  • Inducción de reglas de asociación

  • Inducción de clasificadores bayesianos

Otra manera de clasificar los métodos de hacer minería de datos es atendiendo a las funciones que realizan y a la clase de aplicaciones que pueden ser usadas. Las más típicas de tales funciones son: asociación, clasificación, agrupación y establecimiento de patrones secuenciales

En bases de datos con tamaño suficiente, la tecnología de minería de datos puede generar nuevas oportunidades de negocio como las siguientes:

  • Predicción automática de tendencias y desempeño: La minería de datos automatiza el proceso de encontrar información predictiva en grandes bases de datos. Un ejemplo típico de esto es el marketing dirigido. Se emplea información de los mensajes electrónicos promocionales pasados para identificar los objetivos, esto con el fin de maximizar el retorno de inversión en próximos mensajes promocionales.

  • Descubrimiento automático de patrones previamente no conocidos: Las herramientas de minería de datos barren a través de las bases de datos e identifican patrones previamente desconocidos. Un ejemplo es el análisis de datos de ventas retenidas para identificar productos aparentemente no relacionados y que son comúnmente comprados juntos.

Ejemplos de aplicaciones ya clásicas de la minería de datos son los siguientes:

En la gestión de información:

  • Determinación de autores más productivos en ciertos temas.

  • Contabilización de títulos, palabras claves y otros campos de interés en las publicaciones.

  • Rastreo de referencias.

En marketing:

  • Identificación del patrón de comportamiento de compra de los consumidores.

  • Obtención de asociaciones a través de las características demográficas de los clientes.

  • Predicción de clientes que responderán a correos publicitarios.

  • Análisis de quejas.

En finanzas:

  • Detección de patrones de uso de tarjetas de crédito.

  • Identificación de clientes leales.

  • Determinación del gasto de crédito por grupos de clientes.

  • Hallazgo de correlaciones entre distintos indicadores financieros.

  • Identificación de comportamientos fraudulentos.

En la medicina:

  • Determinación de cuales procedimientos médicos son pedidos conjuntamente.

  • Identificación terapias médicas exitosas para distintos males.

En el transporte:

  • Determinación de la distribución de picos de transporte.

  • Análisis de patrones de arribo.

Una arquitectura para Data Mining

Para aplicar mejor estas técnicas avanzadas, éstas deben estar totalmente integradas con el data warehouse así como con herramientas flexibles e interactivas para el análisis de negocios. Varias herramientas de Data Mining actualmente operan fuera del warehouse, requiriendo pasos extra para extraer, importar yanalizar los datos. Además, cuando nuevos conceptos requieren implementación operacional, la integración con el warehouse simplifica la aplicación de los resultados desde Data Mining. El Data warehouse analítico resultante puede ser aplicado para mejorar procesos de negocios en toda la organización, en áreas tales como manejo de campañas promocionales, detección de fraudes, lanzamiento de nuevos productos, etc.

El punto de inicio ideal es un data warehouse que contenga una combinación de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores. Información histórica sobre potenciales clientes también provee una excelente base para

prospecting. Este warehouse puede ser implementado en una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los datos flexible y rápido.

edu.red

Fases de un Proyecto de Minería de Datos

Los pasos a seguir para la realización de un proyecto de minería de datos son siempre los mismos, independientemente de la técnica específica de extracción de conocimiento usada.

El proceso de minería de datos pasa por las siguientes fases:

  • Filtrado de datos.

  • Selección de Variables.

  • Extracción de Conocimiento.

  • Interpretación y Evaluación.

edu.red

Filtrado de datos

El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse.) nunca es el idóneo, y la mayoría de las veces no es posible nisiquiera utilizar ningún algoritmo de minería sobre los datos en bruto.

Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos… según las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el número de valores posibles (mediante redondeo, clustering,).

Selección de variables

Aún después de haber sido preprocesados, en la mayoría de los casos se tiene una cantidad ingente de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería.

Los métodos para la selección de características son básicamente dos:

  • Aquellos basados en la elección de los mejores atributos del problema,

  • Y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos.

Algoritmos de Extracción de Conocimiento

Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables.

También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos.

Interpretación y evaluación

Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias.

En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

Extensiones del Data Mining

Web mining

Una de las extensiones del data mining consiste en aplicar sus técnicas a documentos y servicios del Web, lo que se llama web mining (minería de web)

(Kosala y otros, 2000). Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, galletas, etc.) que los servidores automáticamente almacenan en una bitácora de accesos (log). Las herramientas de web mining analizan y procesan estos logs para producir información significativa, por ejemplo, cómo es la navegación de un cliente antes de hacer una compra en línea. Debido a que los contenidos de Internet consisten en varios tipos de datos, como texto, imagen, vídeo, metadatos o hiperligas, investigaciones recientes usan el término multimedia data mining (minería de datos multimedia) como una instancia del web mining (Zaiane y otros, 1998) para tratar ese tipo de datos. Los accesos totales por dominio, horarios de accesos más frecuentes y visitas por día, entre otros datos, son registrados por herramientas estadísticas que complementan todo el proceso de análisis del web mining.

Normalmente, el web mining puede clasificarse en tres dominios de extracción de conocimiento de acuerdo con la naturaleza de los datos:

  • Web content mining (minería de contenido web). Es el proceso que consiste en la extracción de conocimiento del contenido de documentos o sus descripciones. La localización de patrones en el texto de los documentos, el descubrimiento del recurso basado en conceptos de indexación o la tecnología basada en agentes también pueden formar parte de esta categoría.

  • Web structure mining (minería de estructura web). Es el proceso de inferir conocimiento de la organización del WWW y la estructura de sus ligas.

  • Web usage mining (minería de uso web). Es el proceso de extracción de modelos interesantes usando los logs de los accesos al web.

edu.red

Algunos de los resultados que pueden obtenerse tras la aplicación de los diferentes métodos de web mining son:

  • El ochenta y cinco por ciento de los clientes que acceden a la página home de productos y a la de noticias de la misma página acceden también más la página de historia. Esto podría indicar que existe alguna noticia interesante de la empresa que hace que los clientes se dirijan a historias de suceso. Igualmente, este resultado permitiría detectar la noticia sobresaliente y colocarla quizá en la página principal de la empresa.

  • El sesenta por ciento de los clientes que hicieron una compra en línea en la página del producto 1 también compraron en la página del producto 4 después de un mes. Esto indica que se podría recomendar en la página del producto 1 comprar el producto 4 y ahorrarse el costo de envío de este producto.

Los anteriores ejemplos ayudan a formar una pequeña idea de lo que se puede obtener. Sin embargo, en la realidad existen herramientas de mercado muy poderosas con métodos variados y visualizaciones gráficas excelentes.

Text mining

Estudios recientes indican que el ochenta por ciento de la información de una compañía está almacenada en forma de documentos. Sin duda, este campo de estudio es muy vasto, por lo que técnicas como la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automático, entre otras, apoyan al text mining (mineríade texto).

En ocasiones se confunde el text mining con la recuperación de la información (Information Retrieval o IR) (Hearst, 1999). Ésta última consiste en la recuperación automática de documentos relevantes mediante indexaciones de textos, clasificación, categorización, etc. Generalmente se utilizan palabras clave para encontrar una página relevante.

En cambio, el text mining se refiere a examinar una colección de documentos y descubrir información no contenida en ningún documento individual de la colección; en otras palabras, trata de obtener información sin haber partido de algo (Nasukawa y otros, 2001).

edu.red

edu.red

edu.red

Business Intelligence

La Inteligencia de Negocios o Business Intelligence (BI) se puede definir como el proceso de analizar los bienes o datos acumulados en la empresa y extraer una cierta inteligencia o conocimiento de ellos. Dentro de la categoría de bienes se incluyen las bases de datos de clientes, información de la cadena de suministro, ventas personales y cualquier actividad de marketing o fuente de información relevante para la empresa.

BI apoya a los tomadores de decisiones con la información correcta, en el momento y lugar correcto, lo que les permite tomar mejores decisiones de negocios.

La información adecuada en el lugar y momento adecuado incrementa la efectividad de cualquier empresa.

La tecnología de BI no es nueva, ha estado presente de varias formas por lo menos en los últimos 20 años, comenzando por generadores de reportes y sistemas de información ejecutiva en los 80"s Afirma Candice Goodwin. Entiéndase como sinónimos de tecnología de BI los términos aplicaciones, soluciones o software de inteligencia de negocios.

Para comprender mejor el concepto se cita el siguiente ejemplo. Una franquicia de hoteles a nivel nacional que utiliza aplicaciones de BI para llevar un registro estadístico del porcentaje promedio de ocupación del hotel, así como los días promedio de estancia de cada huésped, considerando las diferencias entre temporadas. Con esta información ellos pueden:

  • Calcular la rentabilidad de cada hotel en cada temporada del año.

  • Determinar quién es su segmento de mercado.

  • Calcular la participación de mercado de la franquicia y de cada hotel.

  • Identificar oportunidades y amenazas.

Estas son sólo algunas de las formas en que una empresa u organización se puede beneficiar por la implementación de software de BI, hay una gran variedad de aplicaciones o software que brindan a la empresa la habilidad de analizar de una forma rápida por qué pasan las cosas y enfocarse a patrones y amenazas.

Componentes de Business Intelligence

Todas las soluciones de BI tienen funciones parecidas, pero deben de reunir al menos los siguientes componentes:

  • Multidimensionalidad: la información multidimensional se puede encontrar en hojas de cálculo, bases de datos, etc. Una herramienta de BI debe de ser capaz de reunir información dispersa en toda la empresa e incluso en diferentes fuentes para así proporcionar a los departamentos la accesibilidad, poder y flexibilidad que necesitan para analizar la información.

Por ejemplo, un pronóstico de ventas de un nuevo producto en varias regiones no está completo si no se toma en cuenta también el comportamiento histórico de las ventas de cada región y la forma en que la introducción de nuevos productos se ha desarrollado en cada región en cuestión.

  • Data Mining: Las empresas suelen generar grandes cantidades de información sobre sus procesos productivos, desempeño operacional, mercados y clientes. Pero el éxito de los negocios depende por lo general de la habilidad para ver nuevas tendencias o cambios en las tendencias. Las aplicaciones de data mining pueden identificar tendencias y comportamientos, no sólo para extraer información, sino también para descubrir las relaciones en bases de datos que pueden identificar comportamiento que no muy evidentes.

  • Agentes: Los agentes son programas que piensan. Ellos pueden realizar tareas a un nivel muy básico sin necesidad de intervención humana.

Por ejemplo, un agente pueden realizar tares un poco complejas, como elaborar documentos, establecer diagramas de flujo, etc.

  • Data Warehouse: Es la respuesta de la tecnología de información a la descentralización en la toma de decisiones. Coloca información de todas las áreas funcionales de la organización en manos de quien toma las decisiones. También proporciona herramientas para búsqueda y análisis.

TÉCNICAS DEL DATA MINING:

edu.red

edu.red

edu.red

Arquitectura de un Data Warehouse

edu.red

edu.red

edu.red

Arquitectura de una solución de Business Intelligence

edu.red

edu.red

GARFICO DENDOGRAMA

edu.red

Redes neuronales

edu.red

Algoritmos Genéticos

edu.red

Redes neuronales y algoritmos genéticos

edu.red

edu.red

Conclusiones

La minería de datos es una herramienta relativamente nueva y su implementación es complicada y costosa en los sistemas de información generados anteriormente, pues no hay la integración requerida. Sin embargo, su uso se esparcirá cada vez más y su utilidad será más patente cuando comiencen a difundirse productos de apoyo a la toma de decisiones y de soluciones globales al negocio que incluyan esta herramienta como otra opción disponible dentro de la gama de ofertas.

La data mining se presenta como una tecnología emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Además, no hay duda de que trabajar con esta tecnología implica cuidar un sin número de detalles debido a que el producto final involucra toma de decisiones.

Vale finalmente resaltar que aunque los diferentes campos de aplicación de la minería de datos han demandado el surgimiento de poderosas y costosas herramientas para desarrollar estos métodos de búsqueda de patrones -que incluyen productos tales como "Intelligent Miner" de IBM o "SPSS Business Intelligence" de SPSS-, no es este el único camino, y en muchos sitios o sectores se recurre a métodos y aplicaciones propias.

Técnicas de minería de datos pueden ser implementadas con el software y hardware existente en las organizaciones para mejorar el valor y la gestión de los recursos existentes y la toma de decisiones.

Bibliografía

http://dns1.mor.itesm.mx/~emorales/Cursos/KDD01/node7.html

http://www.datawarehousing.com

http://www.areaminera.com/Contenidos/Tecnologia/Analisis/35.act

http://www.almaden.ibm.com/cs/quest/papers/whitepaper.html

http://www.infovis.net/Revista/num_26.htm

http://allen.comm.virginia.edu/jtl5t/index.htm

http://www.datajunction.com/

http://www.semio.com

http://set.gmd.de/KD/textmining.html

UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA

"ANTONIO JOSÉ DE SUCRE"

VICE-RECTORADO PUERTO ORDAZ

DEPARTAMENTO DE INGENIERÍA INDUSTRIAL

SISTEMAS DE INFORMACIÓN

PUERTO ORDAZ, JULIO DE 2OO9

Profesor: MSc. Ing. Iván Turmero.

 

 

 

Autor:

Amundarain, Nairubis.

Carati, Edgar.

Medina, Yenkis.

Pérez, Carlos.

Quijada, Edry.

Rojas, Jonathan.

Salazar, Higmarly.

Suta, Danny.

Valdéz, Magalys.