Descargar

Data WareHouse

Enviado por drgutierrez


    1. Los objetivos fundamentales de un Data WareHouse
    2. Los elementos básicos de un Data WareHouse
    3. Los procesos básicos del Data WareHouse (ETL)
    4. Bibliografía

    1. Introducción

    Que es un Data WareHouse?

    Es un repositorio de datos de muy fácil acceso, alimentado de numerosas fuentes, transformadas en grupos de información sobre temas específicos de negocios, para permitir nuevas consultas, análisis, reporteador y decisiones.

    Que es lo que le preocupa a los ejecutivos?

    Se tienen montañas de datos en la compañía, pero no podemos llegar a ellos adecuadamente. Nada enloquece más a los ejecutivos que dos personas presentando el mismo resultado de operación pero con diferentes números y los ejecutivos lo que buscan es ver la información pero desde diferentes ángulos, mostrando únicamente lo que es importante para tomar una decisión en la empresa, finalmente los ejecutivos saben que hay datos que nunca serán confiables, por lo que prefieren que se eviten en los reportes ejecutivos.

    Uno de los valores más importantes de una organización es la información.

    Estos valores normalmente son guardados por la organización de dos formas:

    • Los sistemas operacionales de registros
    • Y el Data Warehouse

    Crudamente hablando, los sistema operacionales de registros es donde los datos son depositados y el Data WareHouse es de donde se extraen eso datos.

    Los objetivos fundamentales de un Data WareHouse son:

    • Hace que la información de la organización sea accesible: los contenidos del Data WareHouse son entendibles y navegables, y el acceso a ellos son caracterizado por el rápido desempeño. Estos requerimientos no tienen fronteras y tampoco limites fijos. Cuando hablamos de entendible significa, que los niveles de la información sean correctos y obvios. Y Navegables significa el reconocer el destino en la pantalla y llegar a donde queramos con solo un clic. Rápido desempeño significa, cero tiempo de espera. Todo lo demás es un compromiso y por consiguiente algo que queremos mejorar.
    • Hacer que la información de la organización sea consistente: la información de una parte de la organización puede hacerse coincidir con la información de la otra parte de la organización. Si dos medidas de la organización tienen el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados diferentes. Información consistente significa, información de alta calidad. Significa que toda la información es contabilizada y completada. Todo lo demás es un compromiso y por consiguiente algo que queremos mejorar.
    • Es información adaptable y elástica: el Data WareHouse esta diseñado para cambios continuos. Cuando se le hacen nuevas preguntas al Data WareHouse, los datos existentes y las tecnologías no cambian ni se corrompen. Cuando se agregan datos nuevos al Data WareHouse, los datos existentes y las tecnologías tampoco cambian ni se corrompen. El diseño de Data Marts separados que hacen al Data WareHouse, deben ser distribuidos e incrementados. Todo lo demás es un compromiso y por consiguiente algo que queremos mejorar.
    • Es un seguro baluarte que protege los valores de la información: el Data WareHouse no solamente controla el acceso efectivo a los datos, si no que da a los dueños de la información gran visibilidad en el uso y abusos de los datos, aún después de haber dejado el Data WareHouse. Todo lo demás es un compromiso y por consiguiente algo que queremos mejorar.
    • Es la fundación de la toma de decisiones: el Data WareHouse tiene los datos correctos para soportar la toma de decisiones. Solo hay una salida verdadera del Data WareHouse: las decisiones que son hechas después de que el Data WareHouse haya presentado las evidencias. La original etiqueta que preside el Data WareHouse sigue siendo la mejor descripción de lo que queremos construir: un sistema de soporte a las decisiones.

    Los elementos básicos de un Data WareHouse

    • Sistema fuente: sistemas operacionales de registros donde sus funciones son capturar las transacciones del negocio. A los sistemas fuentes también se le conoce como Legacy System.
    • Área de trafico de datos: es un área de almacenamiento y grupo de procesos, que limpian transforman, combinan, remover los duplicados, guardan, archivan y preparan los datos fuente para ser usados en el Data WareHouse.
    • Servidor de presentación: la maquina física objetivo en donde los datos del Data WareHouse son organizados y almacenados para queries directos por los usuarios finales, reportes y otras aplicaciones.
    • Modelo dimensional: una disciplina especifica para el modelado de datos que es una alternativa para los modelos de entidad – relación.
    • Procesos de negocios: un coherente grupo de actividades de negocio que hacen sentido a los usuarios del negocio del Data WareHouse.
    • Data Mart: un subgrupo lógico del Data WareHouse completo.
    • Data WareHouse: búsquedas fuentes de datos de la empresa. Y es la unión de todos los data marts que la constituyen.
    • Almacenamiento operacional de datos: es el punto de integración por los sistemas operacionales. Es el acceso al soporte de decisiones por los ejecutivos.
    • OLAP: actividad general de búsquedas para presentación de texto y números del Data WareHouse, también un estilo dimensional especifico de búsquedas y presentación de información y que es ejemplificada por vendedores de OLAP.
    • ROLAP: un grupo de interfases de usuarios y aplicaciones que le dan a la base de datos relacional un estilo dimensional.
    • MOLAP: un grupo de interfases de usuarios, aplicaciones y propietarios de tecnología de bases de datos que tienen un fuerte estilo dimensional.
    • Aplicaciones para usuarios finales: una colección de herramientas que hacen los queries, analizan y presentan la información objetivo para el soporte de las necesidades del negocio.
    • Herramientas de acceso a datos por usuarios finales: un cliente de Data WareHouse.
    • Ad Hoc Query Tool: un tipo especifico de herramientas de acceso a datos por usuarios finales que invita al usuario a formas sus propios queries manipulando directamente las tablas relacionales y sus uniones.
    • Modelado de aplicaciones: un sofisticado tipo de cliente de Data WareHouse con capacidades analíticas que transforma o digiere las salidas del Data WareHouse.
    • Meta Data: toda la información en el ambiente del Data WareHouse que no son así mismo los datos actuales.

    Los procesos básicos del Data WareHouse (ETL)

    • Extracción: este es el primer paso de obtener la información hacia el ambiente del Data WareHouse.
    • Transformación: una vez que la información es extraída hacia el área de trafico de datos, hay posibles paso de transformación como; limpieza de la información, tirar la basura que no nos sirve, seleccionar únicamente los campos necesarios para el Data WareHouse, combinar fuentes de datos, haciéndolas coincidir por los valores de las llaves, creando nuevas llaves para cada registro de una dimensión.
    • Carga: al final del proceso de transformación, los datos están en forma para ser cargados.

    Las razones básicas de porque una organización implementa Data WareHouse:

    Para realizar tareas en los servidores y discos, asociados a queries y reportes en servidores y discos que no son utilizados por sistemas de proceso de transacciones.

    Muchas de las empresas quieren instalar sistemas de procesos de transacciones para que haya una alta probabilidad de que las transacciones sean completadas en un tiempo razonable. Estos sistemas de procesos de transacciones hacen que las transacciones y peticiones sean más rápidas en menores tiempos dado a que los queries y reportes consumen mucho más de su límite permitido en los recursos de servidores y discos, por tal motivo las empresas han implementado una arquitectura de Data WareHouse que utiliza sus servidores y discos por separado para algunos de los queries y reportes.

    Para utilizar modelos de datos o tecnologías de servidores que agilizan los queries y reportes, y que no son apropiados para los procesos de transacciones.

    Existen maneras de modelar los datos que usualmente agilizan los queries y reportes (ejemplo: el esquema del modelo estrella) y que no son apropiados para los procesos de transacciones porque la técnica de modelado bajaría el rendimiento y complicaría el proceso de transacciones. También existen tecnologías que aceleran el proceso de queries y reportes pero baja la velocidad en el proceso de transacciones (ejemplo: la indexación de bitmaps) y tecnología de servidores que incrementan la velocidad en el proceso de transacciones, pero que disminuyen la velocidad del proceso de queries y reportes (ejemplo: La tecnología de recuperación de transacciones). Todo esto entonces esta en el cómo se hacen los modelos de datos y que tecnología se utiliza, inclusive que productos se adquieren para el impacto de los procesos de queries y reportes.

    Para proveer un ambiente donde relativamente una muy poca cantidad de conocimiento de los aspectos técnicos de tecnología de bases de datos es requerida para escribir y mantener queries y reportes.

    Frecuentemente un Data WareHouse puede ser instalado de manera que los queries y reportes puedan ser escritos por personal sin tanto conocimiento técnico, lo que hace que su mantenimiento y construcción se haga sin más complejidad.

    Para proveer un repositorio del sistema de proceso de transacciones limpio que puede ser reportado y que no necesariamente requiere que se arregle el sistema de proceso de transacciones.

    El Data WareHouse provee la oportunidad de limpiar los datos sin cambiar los sistemas de proceso de transacciones, sin embargo algunas implementaciones de Data WareHouse provee el significado para capturar las correcciones hechas a los datos del Data WareHouse y alimenta las correcciones hacia el sistema de proceso de transacciones. Muchas veces hace más sentido hacer las correcciones de esta manera que aplicar las correcciones directamente al sistema de proceso de transacciones.

    Para hacer los queries y reportes de datos básicamente más fácil de los múltiples procesos de transacciones y de las fuentes externas y de los datos que deben ser almacenados solamente para el propósito de hacer queries y reportes.

    Desde hace mucho tiempo que las compañías necesitan reportes con información de múltiples sistemas y han hecho extracciones de datos para después correrlos bajo la lógica de búsqueda combinando la información de las extracciones con los reportes generados, lo que en muchas ocasiones es una buena estrategia. Pero cuando se tienen muchos datos y las búsquedas se vuelven muy pesadas y después limpiar la búsqueda, entonces lo apropiado sería un Data WareHouse.

    Bibliografía

    Laudon Keneth C., Laudon Jane P. , Sistemas de Información Gerencial (8ª ed.)

    México, Pearson Educación, (2004)

    http://www.dwinfocenter.org/casefor.html

    http://datawarehouse.ittoolbox.com/

    Ralph Kimball, Laua Reeves, Margy Ross, Warren ….The Data WareHouse Lifecycle Toolkit

    Wiley Edition

      

     

     

    Autor:

    Damián Gutiérrez Echeverría

    Petróleos Mexicanos (Corporativo)

    Unidad de Recursos Informáticos

    México, D.F.

    Universidad Iberoamericana

    Maestría en Administración de Servicios de Tecnología de Información

    Primer Semestre

    México, D.F.

    Categoría: Tecnología