CIUDAD GUAYANA, JULIO DE 2009 PROFESOR: MSc. Ing. Iván Turmero INTEGRANTES: CAMPOS, ABEL CEDEÑO, JESÚS CHÁVEZ, ROXANA FIGUEROA, LORENYS FUENTES, CARLOS GARCÍA, NINOSKA GARCÍA, JOSE MÁRQUEZ, JUAN VARGAS, ESTEBAN
UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA“ ANTONIO JOSÉ DE SUCRE ”VICE-RECTORADO PUERTO ORDAZDEPARTAMENTO DE INGENIERÍA INDUSTRIALSISTEMAS DE INFORMACIÓN UNEXPO EL TEMA DEL DATA MINING
Data Warehousing (DW) Es una técnica para consolidar y administrar datos de variadas fuentes con el propósito de responder preguntas de negocios y tomar decisiones, de una forma que no era posible hasta ahora. Consolidar datos desde una variedad de fuentes, dentro del marco conceptual de Data Warehousing es el proceso de Transformación de Datos. Acceder a los datos de una forma más directa, en "el lenguaje del negocio", y analizarlos para obtener relaciones complejas entre los mismos. Estos procesos se engloban en dos categorías: Acceso a los Datos y Descubrimiento o Data Mining. (Gp:)
Características de DW Según, Bill Inmon, existen generalmente cuatro características que describen un almacén de datos: (Gp:) Orientado al sujeto: los datos se organizan de acuerdo al sujeto en vez de la aplicación, Los datos organizados por sujetos contienen solo la información necesaria para los procesos de soporte para la toma de decisiones.
(Gp:) Integrados: cuando los datos residen en muchas aplicaciones separados por los distintos entornos operacionales, la descodificación de los datos es a menudo inconsistente. Cuando los datos fluyen de un entorno operacional a un entorno de almacén de datos o de data warehouse, ellos asumen una codificación consistente.
Variación-temporal: el almacén de datos contiene un lugar para guardar datos con una antigüedad de 5 a diez años, o incluso más antiguos, para poder ser usados en comparaciones, tendencias y previsiones. Estos datos no se modificarán. (Gp:) Variación-temporal: el almacén de datos contiene un lugar para guardar datos con una antigüedad de 5 a diez años, o incluso más antiguos, para poder ser usados en comparaciones, tendencias y previsiones. Estos datos no se modificarán.
(Gp:) No son inestables: los datos no serán modificados o cambiados de ninguna manera una vez ellos han sido introducidos en el almacén de datos, solamente podrán ser cargados, leídos y/o accedidos.
(Gp:)
Objetivos del Data Warehouse Mejorar la capacidad de respuesta a problemas comerciales Proveer una visión única de los clientes en toda la empresa Mejorar el tiempo de espera que insumen los informes habituales Monitorear el comportamiento de los clientes Predecir compras de productos Aumentar la productividad Incrementar la precisión de las mediciones Incrementar y distribuir las responsabilidades. (Gp:)
Ventajas del Data Warehouse (Gp:) Proporciona un gran poder de procesamiento de información (Gp:) Permite una mayor flexibilidad y rapidez en el acceso a la información (Gp:) Facilita la toma de decisiones en los negocios. (Gp:) Las empresas obtienen un aumento de la productividad. (Gp:) Mejora las relaciones con los proveedores y los clientes. (Gp:) Transforma los datos en información y la información en conocimiento (Gp:) Permite hacer planes de forma más efectiva. (Gp:) Reduce los tiempos de respuesta y los costes de operación.
(Gp:)
Requieren una revisión del modelo de datos, objetos, transacciones y además del almacenamiento. Tienen un diseño complejo y multidisciplinar. Requieren una reestructuración de los sistemas operacionales. Tienen un alto coste. Requieren sistemas, aplicaciones y almacenamiento específico. Forma de trabajo del Data Warehouse (DW) Desventajas del Data Warehouse Extrae la información operacional. Transforma la operación a formatos consistentes. Automatiza las tareas de la información para prepararla a un análisis eficiente (Gp:)
El descubrimiento del conocimiento (KDD) Se define como “La extracción no trivial de información implícita, desconocida y potencialmente útil de los datos”. Hay una distinción clara entre el proceso de extracción de datos y el descubrimiento del conocimiento. Bajo sus convenciones, el proceso de descubrimiento del conocimiento toma los resultados tal como vienen de los datos (proceso de extraer tendencias o modelos de los datos) cuidadosamente y con precisión los transforma en información útil y entendible. KDD puede usarse como un medio de recuperación de información, de la misma manera que los agentes inteligentes realizan la recuperación de información en el Web (Gp:)
El descubrimiento del conocimiento (KDD)
Al Descubrimiento de Conocimiento de Bases de Datos (KDD) a veces también se le conoce como minería de datos (Data Mining). Sin embargo, muchos autores se refieren al proceso de minería de datos como el de la aplicación de un algoritmo para extraer patrones de datos y a KDD al proceso completo (pre-procesamiento, minería, post-procesamiento). El proceso de KDD consiste en usar métodos de minería de datos (algoritmos) para extraer (identificar) lo que se considera como conocimiento de acuerdo a la especificación de ciertos parámetros usando una base de datos junto con pre-procesamientos y post-procesamientos. Se estima que la extracción de patrones (minería) de los datos ocupa solo el 15% – 20% del esfuerzo total del proceso de KDD. (Gp:)
Metas de KDD Procesar automáticamente grandes cantidades de datos crudos. Identificar los patrones más significativos y relevantes. Presentarlos como conocimiento apropiado para satisfacer las metas del usuario Técnicas de KDD Los algoritmos de aprendizaje son una parte integral de KDD. Las técnicas de aprendizaje podrán ser supervisadas o no supervisadas El descubrimiento de la máquina es uno de los campos más recientes que han contribuido para KDD. Mientras el descubrimiento de la máquina confía solamente en métodos autónomos para el descubrimiento de la información, KDD típicamente combina métodos automatizados con la interacción humana para asegurar resultados exactos, útiles, y entendibles. (Gp:)
Técnicas de KDD Método Probabilístico Esta familia de técnicas KDD utiliza modelos de representación gráfica para comparar las diferentes representaciones del conocimiento. Estos modelos están basados en las probabilidades e independencias de los datos. Las técnicas probabilísticas pueden usarse en los sistemas de diagnóstico, planeación y sistemas de control Método estadístico. El método estadístico usa la regla del descubrimiento y se basa en las relaciones de los datos. El “algoritmo de aprendizaje inductivo puede seleccionar automáticamente trayectorias útiles y atributos para construir las reglas de una base de datos con muchas relaciones'' (Gp:)
Método de clasificación. La clasificación es probablemente el método más viejo y mayormente usado de todos los métodos de KDD. Este método agrupa los datos de acuerdo a similitudes o clases. Hay muchos tipos de clasificación de técnicas y numerosas herramientas disponible que son automatizadas Método Bayesian de KDD "es un modelo gráfico que usa directamente los arcos exclusivamente para formar una gráfica acíclica". Data Marts Su función es apoyar a otros sistemas para la toma de decisiones. Es un pequeño Data Warehouse, para un determinado numero de usuarios, para un arrea funcional, especifica de la compañía (Gp:)
Data Warehousing (DW) Los procesos que conforma la data son: Extracción. Elaboración. Carga Explotación Componentes del Data Warehouse (Gp:)
Data Mining Data Mining Cada día generamos una gran cantidad de información, algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos. Nos damos cuenta de que generamos información cuando registramos nuestra entrada en el trabajo, cuando entramos en un servidor para ver nuestro correo, cuando pagamos con una tarjeta de crédito o cuando reservamos un boleto de avión. ¿Con qué finalidad queremos generar información?
Son muchos los motivos que nos llevan a generar información, ya que nos pueden ayudar a controlar, optimizar, administrar, examinar, investigar, planificar, predecir, someter, negociar o tomar decisiones de cualquier ámbito según el dominio en que nos desarrollemos. (Gp:)
¿Qué nos ha permitido poder generar tanta información? En los últimos años, debido al desarrollo tecnológico a niveles exponenciales tanto en el área de cómputo como en la de transmisión de datos, ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la información. Sin duda existen cuatro factores importantes que nos han llevado a este suceso: El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente El incremento de las velocidades de cómputo en los procesadores Las mejoras en la confiabilidad y aumento de la velocidad en la transmisión de datos. El desarrollo de sistemas administradores de bases de datos más poderosos (Gp:)
El Data Mining surge como una tecnología que intenta ayudar a comprender el contenido de una base de datos. De forma general, los datos son la materia prima bruta, en el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. La separación del triángulo representa la estrecha unión entre dato e información, no así entre la información y el conocimiento. El Data Mining trabaja en el nivel superior buscando patrones, comportamientos, agrupaciones, secuencias, tendencias o asociaciones que puedan generar algún modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisión. Data Mining (Gp:)
Extracción de datos Limpieza de datos. Selección de características. Algoritmos. Análisis de resultados Predicción automatizada de tendencias y comportamientos. Descubrimiento automatizado de modelos desconocidos. Descubrimiento de anomalías y acciones fraudulentas por parte de clientes. Algunas posibilidades que ofrecen estas herramientas son: Data Mining es una combinación de procesos como: (Gp:)
Página siguiente |