Análisis de los diferentes enfoques para el diseño de almacenes de datos
Enviado por BRENDA MARIZA QUINTERO BELTRAN
Resumen
A partir de la introduccion del modelo de datos multidimensional como formalismo de modelado para Almacenes de Datos (AD), se han realizado distintas propuestas metodologicas para capturar la estructura del AD a nivel conceptual. Las soluciones propuestas parten de diferentes aspectos de diseño: los requisitos de usuario, el analisis del esquema de la base de datos operacional o una combinacion de ambos (tecnicas mixtas).
Palabras Clave—Almacen de Datos, Modelo Multidimensional, Diseño de Almacenes de Datos.
1 INTRODUCCION
El desarrollo en las ultimas decadas, de la tecnologia de bases de datos ha conducido a una situacion en la que las organizaciones disponen de grandes volumenes de datos con informacion historica, almacenados en soporte informatico.
Asi, una vez satisfecha la necesidad de disponer de un sistema de informacion, las organizaciones exigen mas prestaciones a sus sistemas ( Sistemas de Informacion Transaccional ), y contemplan la posibilidad de poder extraer conocimiento de la informacion historica almacenada, conocimiento que les permita analizar la organizacion, prever su evolucion y tomar decisiones estrategicas para el futuro. Este es el punto de partida de la tecnologia de los AD. Las caracteristicas especiales de volumen y explotacion de los datos en este tipo de sistemas, asi como el especial objetivo de uso, han abierto nuevas direcciones de estudio e investigacion en el area de bases de datos: nuevas estructuras de almacenamiento, optimizacion de consultas, tecnicas de indexacion, herramientas de consulta, metodologias de diseño.
En este articulo se hara un analisis de las tecnicas de diseño de algunos enfoques propuestos para el diseño de AD, con el objetivo de evaluar las ventajas y desventajas de cada uno de ellos con respecto a los demas.
2 CONCEPTOS BASICOS
A continuacion se definen algunos conceptos para un entendimiento mas claro de lo que trata el presente trabajo:
2.1 Sistema de Almacen de Datos
Un Sistema de AD es una eficaz herramienta de organizacion y analisis de los complejos volumenes de informacion que las compañias generan, dicha informacion permite posterior- mente el desarrollo de estrategias mas efec- tivas y rentables para la toma de decisiones. Su arquitectura se compone de varias ca- pas: las fuentes de datos, los procesos de extraccion, transformacion y carga (ETL), el repositorio, los cubos y las aplicaciones de ex- plotacion. Asimismo, el modelado multidimen- sional (MD) es considerado como el paradigma para estructurar el AD.
2.2 Modelado Multidimensional(MD)
El MD es una tecnica para modelar bases de datos simples y entendibles al usuario final, busca ofrecer ademas una vision clara respecto a la operacion del negocio. La idea fundamental es que el usuario visualice facilmente la relacion que existe entre los distintos componentes del modelo [30].
El MD se basa en la dualidad hecho- dimension, donde los hechos son descritos en base a las dimensiones. Un hecho representa la actividad objeto de analisis mientras que las dimensiones muestran los diferentes puntos de vista para su estudio.
2.3 Data Mart(DM)
Un DM es un pequeño AD con un alcance restringido de contenido y soporte para proce- samiento analitico, cubriendo el analisis de un problema de un dominio en particular [20].
3 DISEñO DE AD
Un proyecto de AD es similar en muchos as- pectos a cualquier desarrollo de proyecto de software y requiere la definicion de las distintas actividades que deben ser realizadas, las cuales estan relacionados con la obtencion de requisi- tos, diseño y aplicacion en una plataforma op- erativa, entre otras cosas. En la actualidad existen publicaciones se han dedicado al desarrollo AD, algunas de ellas[4, 5, 6] han sido escritas por profesionales y se basan en su experiencia en la construccion de AD. Por otra parte, la comunidad cientifica ha propuesto una gran variedad de enfoques para el desarrollo de AD [7,8,9,10]. Sin embargo, muchos de estos enfoques son a menudo demasiado complejos para ser utilizados en entornos del mundo real. Como consecuencia de ello, todavia hay una falta de una metodologia general que podria guiar a los desarrolladores en las diferentes etapas del proceso de desarrollo de AD.
3.1 Enfoques actuales de Diseño de AD
Hay una gran variedad de enfoques que se han propuesto para el diseño de AD. Se diferencian en varios aspectos, como lo son las distintas fases que componen el proceso de diseño y los metodos utilizados para la especificacion de requisitos. En esta seccion se analizan algunas de las caracteristicas esenciales de los enfoques actuales de acuerdo a estos aspectos:
• Fases de diseño.- Relativamente pocas publicaciones, [8,10,12]) han propuesto un metodo global de diseño de AD. Sin embargo, estas publicaciones no estan de acuerdo en las fases que deben ser seguidas en el diseño de AD. Algunos autores [27,28], consideran que las fases tradicionales de desarrollo de bases de datos operacionales, es decir, la especificacion de requisitos, diseño conceptual, diseño logico y diseño fisico tambien se pueden utilizar en el desarrollo de AD. Otros [10,28] autores ignoran algunas de estas fases, especialmente la fase de diseño conceptual. Muchas publicaciones [13,20,23,24] se refieren a una sola de las fases, sin considerar las transformaciones posteriores necesarias para alcanzar soluciones viables.
• Enfoque dirigido por los requisitos de usuario.- Este enfoque considera que los usuarios juegan un papel fundamental en el analisis de los requisitos y deben participar activamente en el esclarecimiento de los hechos y dimensiones correspondientes [9,12,19,20,21,23,25].
• Enfoque dirigido por los datos.- En este enfoque, el esquema de AD es obtenido mediante el analisis de las fuentes de datos existentes, algunos de los enfoques propuestos requieren representaciones conceptuales de los sistemas operativos de origen, en la mayoria de los casos se basan en el modelo ER. Otros enfoquess utilizan las tablas relacionales para representar las fuentes de datos operacionales. En general, no se requiere la participacion de los usuarios [11], sin embargo, en algunas tecnicas los usuarios necesitan analizar bien el esquema obtenido para confirmar la exactitud de las estructuras derivadas, o identificar algunos hechos y medidas como punto de partida para el diseño de esquemas multidimensionales [7,10].
• Enfoque combinado o mixto.- Este enfoque es una combinacion del enfoque dirigido por los requisitos de negocios o de usuario y el enfoque dirigido por los datos, teniendo en cuenta la demanda de estos y el analisis de las bases de datos operacionales de origen. En una situacion ideal, estos dos componentes deben coincidir, es decir, toda la informacion que los usuarios o los negocios requieren para fines de analisis debe ser suministrada por los datos incluidos en las bases de datos peracionales de origen.
3.2 Enfoques dirigidos por los requisitos de usuario
A continuacion se presentan algunos de los enfoques que derivan el AD a partir del analisis de los requisitos de usuario:
• Trujillo et al. [13] presentaron un enfoque para la inclusion de las metas de negocio en el AD basandose en el analisis de los requisitos. Estos requisitos se transforman en un modelo multidimensional. Estos autores utilizaron el marco de trabajo i*, el cual se basa en dos tipos de modelos: un modelo de dependencia estrategica, que describe la dependencia entre los actores en un contexto organizacional, y un modelo de razones estrategicas, que se utiliza para entender los intereses de los actores y la forma en que podrian abordarse. Despues adaptaron los modelos en el contexto de AD, dando orientaciones especificas para la construccion del AD, para luego transformarlos a un modelo multidimensional conceptual basado en la notacion UML.
Como conclusiones de esta propuesta podemos mencionar que el uso de una notacion estandarizada para representar el esquema conceptual del AD, hace que los usuarios no tengan que aprender una notacion propia del diseñador, aislada y dificil de entender, ademas de que actualmente existe una tendencia enla Ingenieria de Software a de utilizar medios estandarizado en los procesos de desarrollo de software, un ejemplo de ellos es UML.
Por otra parte existe una similitud con los enfoque [19,24], ya que tambien parten del analisis de los requisitos de usarios, sin embargo la principal diferencia entre ellos es que [19 y 24] no utilizan una notacion estandarizada para representar dichos requisitos.
• Kumar et al. [23] proponen el modelo AGDI (Agent-Goal-decision-Information), para dar soporte a la Ingenieria de Requisitos (IR).
Los autores utilizan el concepto de agente y meta durante la etapa de analisis de los requisitos del diseño de AD, en esta etapa se deben identificar a los agentes que se encuentran dentro del dominio del problema y se consideran actores del sistema. Estos actores, dependen de alguna meta a ser realizada.
Para modelar los requisitos se diseña en primer lugar un modelo de la organizacion de actividades que permita analizar el contexto de organizacion donde el sistema de AD trabajara. Despues,se hace un modelado de la meta, donde se identifican las partes interesadas como agentes internos o externos y sus dependencias relacionadas para llevar a cabo la meta que deberarealizar cada agente. En esta etapa se recibe como entrada el modelo organizacional obtenido en el primer paso, dependiendo de la meta a cumplir, estas metas son dividas a su vez en metas mas simples utilizan relaciones ORs/Ands, dependiendo de su complejidad.
Las metas identificadas son utilizadas para identificar los hechos mas relevantes de la organizacion, estas son divididas por medio de relaciones semanticas ORs/Ands, y serviran para la identificacion de las dimensiones navegando en el modelo atraves de estas relaciones.
Como conclusiones de este enfoque podemos decir que, tiene algunas similitudes con el enfoque de [19], ya que ambos utilizan los conceptos Agente y Meta para hacer el modelado de los requisitos de usuario, pero la principal diferiencia entre ellos dos es que el enfoque propuesto por Kumar et. al. no puede ser empleado como tecnica mixta, ya que solamente se enfoca en el analisis de los requisitos.
• Nair et al.[24], presentan un enfoque para el analisis de los requisitos. Este consiste de varios pasos, iniciando con la especificacion de los requisitos, que son modelados de manera grafica. A partir de las consultas que deseen los usuarios se genera un arbol de consultas, que consistira en identificar los hechos relevantes de la organizacion asi como sus atributos, la siguiente etapa es construir un Esquema Intermedio haciendo uso del modelo de requisitos y el arbol de consultas, finalmente se deriva el esquema multidimensional del AD.
EL PRESENTE TEXTO ES SOLO UNA SELECCION DEL TRABAJO ORIGINAL. PARA CONSULTAR LA MONOGRAFIA COMPLETA SELECCIONAR LA OPCION DESCARGAR DEL MENU SUPERIOR.