Descargar

El tema del data mining (PPT) (página 2)


Partes: 1, 2
edu.red

"Una actividad de extracción cuyo objetivo es el de descubrir hechos contenidos en las bases de datos". Desde un punto de vista académico el término Data Mining es una etapa dentro de un proceso mayor llamado KDD. Lo que en verdad hace el Data Mining es reunir las ventajas de varias áreas como la Estadística, la Inteligencia Artificial, la Computación Gráfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos. Data Mining (Gp:)

edu.red

¿Dónde se utiliza Data Mining? La utilidad de Data Mining se puede dar dentro de los siguientes aspectos: Sistemas parcialmente desconocidos: Enorme cantidad de datos: Potente hardware y software: Los objetivos principales de Data Mining. Descripción: El principal producto del proceso de la minería de datos es el descubrimiento de reglas. Predicción (Forecasting): Una vez descubiertas reglas importantes, estas pueden ser utilizadas pera estimar algunas variables de salida. Puede ser en el caso de secuencias en el tiempo, o bien en la identificación e interrupción a tiempo, de una futura mala experiencia de crédito. (Gp:)

edu.red

Aplicaciones de MD En la actualidad, existe una gran cantidad de aplicaciones, en áreas tales como: Astronomía Aspectos climatológicos Medicina. Industria y manufactura. Mercadotecnia. Inversión en casas de bolsa y banca. Detección de fraudes y comportamientos inusuales. Normalización automática de bases de datos     Determinación de niveles de audiencia de programas televisivos (Gp:)

edu.red

Técnicas de MD Análisis Preliminar de datos usando Query tools: Este primer análisis en SQL es para saber cual es la distribución de los valores posibles de los atributos. Recién después podemos ver la performance del algoritmo correspondiente.   Técnicas de Visualización: Estas son buenas para ubicar patrones en un conjunto de datos y puede ser usado al comienzo de un proceso de data mining para tomar un feeling de la calidad del conjunto de datos Árbol de Decisión: Son estructuras en forma de árbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Para poder predecir el comportamiento de un cliente es necesario poder contar con una clasificación previa esto implica una predicción de que un cliente pertenece a cierto grupo de clientes. (Gp:)

edu.red

Métodos específicos de árboles de decisión incluyen: CART Árboles de clasificación y regresión: técnica usada para la clasificación de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cuáles registros darán un cierto resultado CHAID Detección de interacción automática de Chi cuadrado: técnica similar a la anterior, pero segmenta un conjunto de datos utilizando tests de chi cuadrado para crear múltiples divisiones.   (Gp:)

edu.red

Reglas de Asociación: Establece asociaciones en base a los perfiles de los clientes sobre los cuales se está realizando el data mining. Las reglas de Asociación están siempre definidas sobre atributos binarios. No es muy complicado generar reglas en grandes bases de datos. El problema es que tal algoritmo eventualmente puede dar información que no es relevante Algoritmos Genéticos: Son técnicas de optimización que usan procesos tales como combinaciones genéticas, mutaciones y selección natural en un diseño basado en los conceptos de evolución.     Redes Bayesianas: Buscan determinar relaciones causales que expliquen un fenómeno en base a los datos contenidos en una base de datos. Se han usado principalmente para realizar predicción.   (Gp:)

edu.red

Redes neuronales artificiales: Son modelos predecibles, no lineales que aprenden a través del entrenamiento y semejan la estructura de una red neuronal biológica.   Método del vecino más cercano: Una técnica que clasifica cada registro en un conjunto de datos basado en una combinación de las clases de k registro/s más similar/es a él en un conjunto de datos históricos. Algunas veces se llama la técnica del vecino k-más cercano.   Regla de inducción: La extracción de reglas if-then de datos basados en significado estadístico. La técnica usada para realizar estas hazañas en Data Mining se llama Modelado y es simplemente el acto de construir un modelo en una situación donde usted conoce la respuesta y luego la aplica en otra situación de la cual desconoce la respuesta. (Gp:)

edu.red

Algoritmos de Minería de Datos Se clasifican en dos grandes categorías: Los algoritmos supervisados o predictivos predicen el valor de un atributo (etiqueta) de un conjunto de datos, conocidos otros atributos (atributos descriptivos). A partir de datos cuya etiqueta se conoce se induce una relación entre dicha etiqueta y otra serie de atributos. Cuando una aplicación no es lo suficientemente madura no tiene el potencial necesario para una solución predictiva, en ese caso hay que recurrir a los métodos no supervisados o del descubrimiento del conocimiento que descubren patrones y tendencias en los datos actuales (no utilizan datos históricos). El descubrimiento de esa información sirve para llevar a cabo acciones y obtener un beneficio (científico o de negocio) de ellas (Gp:)

edu.red

Retos de la minería de datos Los productos a comercializar son, en la actualidad, significativamente costosos, y los consumidores pueden hallar una relación costo/beneficio improductiva. Se requiera de mucha experiencia para utilizar herramientas de la tecnología, o que sea muy fácil hallar patrones equívocos, triviales o no interesantes. Existencia de una reacción del público por el uso indiscriminado de datos personales para ejercicios de Minería de Datos Deseo de hacer inferencias y análisis de datos sobre un periodo determinado, pero que durante dicho periodo no se haya registrado el mismo número de variables, o que éstas no tengan la misma precisión, o carezcan de la misma interpretación (Gp:)

edu.red

Etapas principales del proceso de data mining Determinación de los objetivos: delimitar los objetivos que el cliente desea bajo la orientación del especialista en data mining. Pre-procesamiento de los datos: se refiere a la selección, la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Determinación del modelo: se comienza realizando un análisis estadístico de los datos, y después se lleva a cabo una visualización gráfica de los mismos para tener una primera aproximación. Análisis de los resultados: verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por el análisis estadístico y de visualización gráfica Respecto a los modelos inteligentes, se ha comprobado que en ellos se utilizan principalmente árboles y reglas de decisión, reglas de asociación, redes neuronales, redes Bayesianas, conjuntos aproximados algoritmos de agrupación, máquinas de soporte vectorial, algoritmos genéticos y lógica difusa.  

edu.red

Extensiones del data mining Web mining: Consiste en aplicar las técnicas de minería de datos a documentos y servicios del Web (Kosala y otros, 2000). Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, etc.) que los servidores automáticamente almacenan en una bitácora de accesos (Log). Las herramientas de Web mining analizan y procesan estos logs para producir información significativa. Text mining: Dado que el ochenta por ciento de la información de una compañía está almacenada en forma de documentos, las técnicas como la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automático, entre otras, apoyan al text mining (minería de texto). (Gp:)

edu.red

Beneficios del Data Mining (Gp:) Buen punto de encuentro entre los investigadores y las personas de negocios (Gp:) Ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. (Gp:) Contribuye a la toma de decisiones tácticas y estratégicas proporcionando un sentido automatizado para identificar información clave desde volúmenes de datos generados por procesos tradicionales y de e-Business. (Gp:) Permite a los usuarios dar prioridad a decisiones y acciones mostrando factores que tienen un mayor en un objetivo, qué segmentos de clientes son desechables y qué unidades de negocio son sobrepasados y por qué

(Gp:) Proporciona poderes de decisión a los usuarios del negocio que mejor entienden el problema y el entorno y es capaz de medir la acciones y los resultados de la mejor forma. (Gp:) Genera Modelos predictivos: permite que relaciones no descubiertas e identificadas a través del proceso del Data Mining sean expresadas como reglas de negocio o modelos predictivos.

(Gp:)

edu.red

LA FORMA EN QUE SE TRABAJA CON DATA MINING. La Arquitectura de Data Mining. Dadas bases de datos de suficiente tamaño y calidad, la tecnología de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades: Predicción automatizada de tendencias y comportamientos: Data Mining automatiza el proceso de encontrar información predecible en grandes bases de datos. Descubrimiento automatizado de modelos previamente desconocidos. Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un sólo paso. (Gp:)

edu.red

Las bases de datos pueden ser grandes tanto en profundidad como en ancho: Más columnas: Los analistas muchas veces deben limitar el número de variables a examinar cuando realizan análisis manuales debido a limitaciones de tiempo. Sin embargo, variables que son descartadas porque parecen sin importancia pueden proveer información acerca de modelos desconocidos. Más filas: Muestras mayores producen menos errores de estimación y desvíos, y permite a los usuarios hacer inferencias acerca de pequeños pero importantes segmentos de población. (Gp:)

edu.red

Data Mining dentro de una arquitectura Data Warehousing. Las técnicas de Data Mining son utilizadas habitualmente para el análisis y explotación de datos de un Data Warehouse. Para aplicar mejor técnicas avanzadas de Data Mining, éstas deben estar totalmente integradas con el Data Warehouse así como con herramientas flexibles e interactivas para el análisis de negocios. Las soluciones que aporta el Data Mining están basadas en la implementación, a través de la programación, de interfaces de uso general y algoritmos propios y disponibles para todos que permiten una eficiente exploración y organización de los datos. Estos algoritmos apoyan la identificación de patrones, relaciones y anomalías de interés potencial para los que toman las decisiones en los negocios. (Gp:)

edu.red

Creación de un proyecto Data Mining. La creación de un proyecto de Data Mining pasa por diferentes fases, estas varían de autor en autor y también dependen de dónde se vaya a implantar dicho proyecto, aquí presentamos una forma general para la creación de un proyecto de DM y una forma más específica, estas fases sirven como una guía parcial para elegir una buena forma de implantar un proyecto de este tipo Fases generales para la creación de un proyecto Data Mining.

En esta parte se emplean cuatro fases independientemente de la técnica específica de extracción de conocimiento usada.

Filtrado de datos. Selección de Variables. Extracción de Conocimiento. Interpretación y Evaluación (Gp:)

edu.red

CONCLUSIONES El desarrollo de la tecnología de Minería de Datos está en un momento crítico. Existe una serie de elementos que la hacen operable, sin embargo, existen algunos factores que pueden crear un descrédito a la Minería de Datos, como ser:       Que los productos a comercializar son, en la actualidad, significativamente costosos, y los consumidores pueden hallar una relación costo/beneficio improductiva.       Que se requiera de mucha experiencia para utilizar herramientas de la tecnología, o que sea muy fácil hallar patrones equívocos, triviales o no interesantes.       Que no sea posible resolver los aspectos técnicos de hallar patrones en tiempo o en espacio, Hoy en día, las corporaciones comercializan con millones de perfiles personales, sin que aquellos a que se refieren los datos intercambiados, estén en posibilidad de intervenir, entonces se llega a pensar que presenta un peligro o riesgo para la privacidad de los clientes.          (Gp:)

Partes: 1, 2
 Página anterior Volver al principio del trabajoPágina siguiente