Data Warehouse, Modelo, Conceptos e Implementación orientada a SQL Server
Enviado por Erith Eduardo Pérez Gallardo
- Resumen
- Data Warehouse, Conceptos Fundamentales
- El Modelo de Hechos Dimensionales (DFM-Dimention Fact Model)
- Diagrama en Estrella
- Obtención y Transformación de los Datos
- Técnicas de desarrollo del soporte de Hardware
- Datos distribuidos
- Consultas distribuidas
- Salva y restaura de datos
- Conclusiones
- Bibliografía
Resumen
Este trabajo intenta dar una idea bastante acertada sobre el trabajo con sistemas Data Warehouse, presentando la teoría fundamental que sustenta este tipo de representación y procesamiento de los datos en la actualidad: El Modelo Dimensional (DFM: Dimention Fact Model). Además brinda ejemplos prácticos de cómo llevar a cabo tareas primordiales de un Data Warehouse, como son: La extracción de los datos desde otros sistemas o formatos. Mostrando así las facilidades que brinda la herramienta de transformación de datos de Microsoft SQL Server 2000 (DTS: Data Transformation Service). En otros apartados posteriores trata de resumir el tema de la programación distribuida, las diferentes técnicas de distribución de los datos orientado principalmente a Microsoft SQL Server 2000, las diferentes estrategias para mejorar el hardware de un Data Warehouse y finalmente se aborda el tema de la salva de los datos, mostrando como ejemplo un script de salva incremental.
Introducción
Data Warehouse no es un término nuevo si no una vieja rutina con un nombre nuevo. El almacenamiento de datos históricos y análisis de estos para tomar decisiones futuras ya era practicado por los aztecas y mallas en su increíble calendario solar. Incluso los egipcios atesoraban registros de las primaveras con amplios desbordamientos del Nilo, que les permitía saber si el año sería de una buena cosecha o no.
El estudio de datos relacionados con la gestión empresarial, empezó cuando todavía la computación no llegaba a dar respuesta a estos problemas. Los directivos estudiaban enormes informes elaborados por comerciales y económicos compuestos de varias páginas de datos escrupulosamente resumidos. El avance de la computación ha hecho el trabajo un poco más fácil. El uso de aplicaciones OLTP (Online Transaction Proccesing) ha traído consigo la recopilación muy rápida de datos que antes era casi imposible obtener, aunque haciendo uso en muchos casos de múltiples sistemas que usan SGBDR(Sistemas Gestores de Bases de Datos Relacionales) diferentes e incompatibles. Esto hace difícil el correlacionar los datos obtenidos desde estos diversos sistemas teniendo que volver al análisis impreso. Así esta nueva teoría viene a resolver un problema viejo usando una nueva técnica: OLAP (Online Analitical Proccesing) Procesamiento Anlítico En Línea.
Existen diversas variantes sobre esta teoría, que definen el futuro desarrollo de este tipo de aplicaciones, pero una de las más aceptadas hasta ahora es el Modelo de Hechos Dimensionales (DFM: Dimention Fact Model), que veremos a continuación para dar comienzo a nuestro estudio.
Data Warehouse, Conceptos Fundamentales
Para empezar vamos a enunciar una serie de conceptos básicos que nos permitirán entender toda la teoría que seguirá en los restantes apartados de este documento:
- Data Warehouse: Es la integración de datos consolidados, almacenados en un dispositivo de memoria no volátil, proveniente de múltiples y posiblemente diferentes fuentes de datos. Con el propósito del análisis y a partir de este tomar decisiones en función de mejorar la gestión del negocio. Contiene un conjunto de cubos de datos que permiten a través de técnicas de OLAP consolidar, ver y resumir los datos acorde a diferentes dimensiones de estos. (Chaudhuri & Dayal, 1997)
- Data Marts: Es un subconjunto del Data Warehouse, usado normalmente para el análisis parcial de los datos. Ej: El Data Mart de los datos del departamento ventas y el Data Mart de Inventarios. El objetivo de subdividir está dado por la complejidad computacional del análisis global de todas las dimensiones del Data Warehouse y por la necesidad de rapidez. (Microsft Data Warehouse Training, 2000)
- Data Mining: Es el descubrimiento de conocimiento oculto en las bases de datos. Relaciones entre estos y tendencias que permiten una toma de decisiones acertada. Incluye Asociación, Caracterización, Clasificación, Análisis de Series Cronológicas, etc. (Chaudhuri & Dayal, 1997).
- OLTP (Online Transaction Proccesing): Se les llama así a las aplicaciones orientadas principalmente a la inserción, actualización y eliminación de datos, diseñada casi siempre usando el modelo Relacional. Estos sistemas están optimizados para realizar estas operaciones en un tiempo corto. (Microsoft Books Online, 2000)
- OLAP (Online Analitical Proccesing): Son los sistemas que se usan para analizar los datos que las OLTP introducen en la Base de Datos. A diferencia de los primeros estos casi siempre usan el modelo multidimensional para organizar los datos en la Base de Datos ya que brindan mejores resultados a la hora del análisis de estos. (Microsoft Books Online, 2000)
Página siguiente |