- Bodega de datos ( Data warehouse )
- Sistema operativo
- Red
- ¿Cómo se puede conformar la bodega de datos?
- Requerimientos para la construcción de una bodega de datos
- ¿Qué pueden ofrecer las bodegas de datos ?
- ¿Cómo trabaja una bodega de datos?
- ¿Cuál es el retorno de la inversión?
- Uso de herramientas OLAP (data warehouse)
- Construcción del Data Warehouse
- Conclusión
Deseamos orientarnos y capacitarnos en la construcción de base de datos mediante el desarrollo y nivel de bodega de datos debido a la importancia en el mercado actual que cada vez maneja una población más extensa en el campo de la información.
BODEGA DE DATOS ( Data Warehouse )
Es un conjunto de datos integrados o orientados a una materia, que varían con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de la administración y esta orientada al manejo de grandes volúmenes de datos provenientes de diversas fuentes o diversos tipos.
Estos datos cubren largos períodos de tiempo lo que trae consigo que se tengan diferentes esquemas de los datos fuentes, La concentración de esta información esta orientada a su análisis para apoyar la toma de decisiones oportunas y fundamentadas, Previo a su utilización se debe aplicar procesos de análisis, selección y transferencia de datos seleccionados desde las fuentes.
RIESGOS.– Desactualización de esquemas a nuevas necesidades del negocio. – Acceso no restringido a objetos de Data Warehouese. – Respaldo de los datos almacenados
La bodega de datos se encuentra sobre la plataforma del sistema operativo. La seguridad representada en la disponibilidad, confidencialidad y controles de accesos y privilegios sobre las áreas de almacenamiento y procesamiento están en gran medida dependientes de esta plataforma.
RIESGOS– El Sistema operativo no apoya las políticas de acceso establecidas desde la administración de la bodega de datos. – Los recursos requeridos par los procesos de actualización sean mal atendidos por el sistema operativo. – El sistema operativo permite que programas o usuarios ejecuten y utilicen recursos protegidos desde la bodega de datos. – El sistema operativo no otorga los recursos necesarios para la realización de procesos de alto costo computacional.
Es la infraestructura de comunicación que permite que los diferentes componentes intercambien información. La cantidad de datos contenidos en Data Warehouse incrementa su importancia.
RIESGOS– Acceso al sistema desde elementos externos sin autorización (aplicaciones, personas, etc.) – La red se convierta en un cuello de botella para lo operación del sistema. – La inexistencia de elementos que respalden un componente que falle
OLAP: Las siglas OLAP significan en inglés Online Analytical Processing, una categoría de herramientas de software que provee análisis de datos almacenados en una base de datos multidimensional. Las herramientas OLAP permiten a los usuarios analizar diferentes dimensiones de datos. SQL: Es la abreviación de Structured Query Lenguaje. Es un lenguaje estandarizado de consultas para pedir información desde una base de datos.
¿Cómo se puede conformar la bodega de datos?
Aparte de las consideraciones técnicas y económicas, existen tres aspectos importantísimos que intervienen en el establecimiento y el uso de una bodega de datos: el diseño, el mantenimiento, y el uso de la misma.
El diseño requiere soportarse en un análisis profundo de la institución o del áreas funcionales responsables de la utilización de la bodega, las fuentes de datos que alimentarán la bodega, y unas personas capacitadas en la correcta estructuración de la bodega.
De las decisiones aquí tomadas, depende la velocidad de búsqueda y la calidad y oportunidad obtenida en las respuestas a nuestras inquietudes. Una decisión mal tomada en este aspecto puede significar demoras de días en vez de horas o minutos para la obtención de las respuestas requeridas, o incluso, que la bodega no esté en capacidad de responder las preguntas claves para la organización.
El mantenimiento de la información se convierte en parte fundamental, una vez la bodega de datos forma parte integral de los sistemas de información de la institución o compañía. Según los expertos, uno de los principales problemas que se vive con los proyectos de bodegas de datos es la obsolescencia de su información. Se actualiza la información para el proyecto piloto, pero no se establecen mecanismos de actualización permanente que siempre garanticen la oportunidad de la misma.
Por último, pero no menos importante, están las decisiones que se hagan sobre el uso que se hará de la bodega de datos, resaltándose en este aspecto la capacidad y entrenamiento que deben tener los distintos usuarios para buscar relaciones y analizar la información.
Si bien es cierto que la bodega de datos agiliza esta tarea, es deber de los usuarios de la bodega saber cómo preguntar y cómo interpretar y poner en práctica los resultados que obtienen, pero además, la institución debe definir en forma muy clara, el ámbito empresarial en el que operará la bodega, las dependencias administrativas de la organización que van a tener acceso a la bodega de datos y las consultas que ésta debe responder inicialmente.
REQUERIMIENTOS PARA LA CONSTRUCCIÓN DE UNA BODEGA DE DATOS
HARDWARE
Se requiere de un servidor para el almacenamiento y manejo de la base de datos corporativa; este servidor se recomienda que sea altamente escalable, pues algunas veces el proyecto de construcción de la bodega presenta redimensionamiento a medida que se avanza en la implementación. La capacidad inicial de almacenamiento estará determinada por los requerimientos de información histórica presentados por la empresa y por la perspectiva de crecimiento que se tenga.
Dependiendo del diseño del sistema, puede ser necesario contar con un segundo servidor para las herramientas de consulta de datos. Este equipo debe tener el sistema operativo recomendado por el proveedor de la herramienta a utilizar, siendo el más usado alguna versión de Windows.
Las estaciones de trabajo de cada usuario deberán cumplir con las características recomendadas por el proveedor de la herramienta de consulta seleccionada.
HERRAMIENTAS DE SOFTWARE
Las herramientas se clasifican en cuatro categorías básicas: Herramientas de Almacenamiento (bases de datos, multidimensionales), Herramientas de Extracción y Colección, Herramientas para Reportes de Usuario Final y Herramientas para Análisis Inteligentes.
Herramientas de Almacenamiento: corresponde a la herramienta en la cual se irán a almacenar los datos. Existen muchas opciones dependiendo del volumen de los datos, presupuesto y capacidad de su sistema. Cada uno de los sistemas de administración de bases de datos, como Oracle, DB2, Informix, TeraData, Sybase, etc, tienen una facilidad de Data Warehouse.
Herramientas de Extracción y Colección: Ayudan a definir, acumular, totalizar y filtrar los datos de sus sistemas transaccionales en el Data Warehouse. La mayoría de esas herramientas son desarrolladas por el personal interno de la compañía dado el gran conocimiento que tienen de los sistemas transaccionales.
Herramientas para Elaboración de Reportes a Usuarios Finales: Es la interfase vista por el usuario. Al usuario se le debe proveer un mecanismo para que vea los datos a un alto nivel y que entonces obtenga con ello la solución a preguntas específicas. Existen muchas herramientas, incluyendo Cognos Powerplay, Business Objects, SAS, ShowCase Strategy etc.
Herramientas de Análisis Inteligente: Entre ellas están las de empresas como IBM, SAS, Arbor, Cognos, Business Objects, entre otras. Estas herramientas han sido construidas utilizando inteligencia artificial que buscan alrededor del Data Warehouse modelos y relaciones en los datos. Estas herramientas utilizan una técnica conocida como Data Minning o Minería de datos.
¿QUÉ PUEDEN OFRECER LAS BODEGAS DE DATOS ?
El objetivo de las bodegas de datos es centralizar una gran variedad de datos e información, interpretar dicha información y darle un valor agregado para beneficio del negocio todo ello por supuesto, con un fácil acceso y visualización por parte de los usuarios. Algunos procesos que se realizan en estos escenarios son:
Transformación de Datos. Se obtienen datos e información de diferentes fuentes o almacenamientos y se aplica una serie de reglas definidas que convierten los datos en información útil para la toma de decisiones.
Repositorios y metadatos. Más importante aún que el flujo de datos es entender el origen y la descripción de éstos de una forma que sea común para toda la organización. "No se requiere más datos, se requiere entenderlos".
Procesamiento analítico en línea (OLAP). Provee el medio para obtener visualizar y analizar información con alto rendimiento y flexibilidad. OLAP presenta la información a los usuarios de una forma natural e intuitiva. De esta manera los usuarios pueden ser más efectivos en reconocer el valor de dicha información.
Visualización. En la mayoría de los casos los datos pueden ser mejor entendidos si los números son combinados de diferentes formas y presentados visualmente en forma de histogramas y varios tipos de gráficas. La visualización puede ser especialmente útil en identificar rápidamente cuales datos pueden tener un análisis especial.
¿Cómo trabaja una bodega de datos?
Las bodegas de datos son una base de datos históricos y operativos de la compañía(banco, supermercado etc) que están disponibles para el usuario. Contrario a muchos sistemas, se establece de acuerdo con la lógica del negocio mas que con la lógica de los sistemas. Le permite a los usuarios cavar y dar vueltas entre toda esa información importante de los clientes, para buscar relaciones y efectuar consultas. El proceso mediante el cual los usuarios se sientan enfrente de una montaña de hechos y datos para descubrir tendencias que sugieran nuevas oportunidades de negocios se llama "minería de datos" (data mining).
Sin embargo todo lo que brilla no es oro. La empresa debe comprometerse a mantener actualizados los datos que están alojados en la bodega, asegurarse que todos los datos son validos, exactos y oportunos.
¿Cuál es el retorno de la inversión?
Los beneficios y recompensas son abundantes para una compañía que configure y mantenga adecuadamente la bodega de datos. Ahorros en costos al igual que el aumento en ingresos encabeza la lista de los beneficios tangibles. Adiciónele a esto el análisis de las bases de datos de mercadeo para efectuar venta cruzada de productos, identificar y mantener a los clientes que generen la mayor utilidad, mientras se mantiene un mejor conocimiento de quienes son los clientes de la empresa. Por ejemplo, una empresa de servicios telefónicos puede utilizar una bodega de datos para determinar cuales servicios pueden interesarle a cada uno de sus clientes. De esta manera evita gastos en correo masivo e impersonal, con una rata de efectividad muy baja.
Una compañía no se debe olvidar que el objetivo de cualquier proyecto para una bodega de datos es reducir los costos operativos y generar ingresos. Esto es una inversión y se debe poder esperar un retorno cuantificable a esta inversión en el tiempo.
En conclusión, una bodega de datos bien implementada y mantenida redundará en beneficios para la compañía. Cualquier falla en su implementación, garantizará que el dinero invertido se ha despilfarrado.
Uso de herramientas OLAP (data warehouse)
Se debe recordar que no es suficiente con almacenar datos, es necesario procesarlos para convertirlos en información importante para la organización.
Los sistemas de apoyo a las decisiones (DSS), conectan a las personas con las bodegas de datos. De la calidad de estas herramientas depende el grado de aprovechamiento de estas. Pueden ser:
Herramientas de consultas / reportes, con interfaz gráfica, sin usar sentencias SQL, realizar queries o peticiones complejas.
Herramientas OLAP (On-Line Analytical Processing). Permiten obtener información generando consultas multidimensionales, con columnas y filas móviles y diversos grados de agrupamiento para diferentes parámetros.
Modelo Multidimensional: Modelo estilo hoja de cálculo.
a. Elementos:
Medidas: Valores de interés
Dimensiones, Atributos, Propiedades Visión de Cubos, Datos representados en forma de arreglos multidimensionales.
b. Visión de Relaciones :
Tablas de hechos (Fact Table): Ejemplo: ventas.
Tablas de dimensiones: Ejemplo: tiempo, producto, geografía.
Usualmente se maneja el tiempo como una tabla. Esto permite colocar atributos a la fecha. La normalización genera un efecto denominado copos de nieve, es preferible usar el método de la estrella, donde las relaciones son mas claras. La actualización se hace por periodos, no en línea.
Tipos de servidores OLAP.
MOLAP: Multimensionales OLAP.
Arreglos multidimensionales.
No escalan a grandes volúmenes.
No hay estándar.
Muy eficiente.
Realmente guarda el cubo de decisión.
Interfaz estilo hoja de cálculo.
Principalmente operaciones de agregación de medidas diferentes.
Niveles jerárquicos de las dimensiones.
Subir o bajar en los niveles de agregación (Roll-up, Drill-Down).
Otras operaciones comunes: Filtrar y rotar. Slice and Dice.
La herramienta RAD de Inprise, Delphi, permite la construcción de cubos de decisión a partir de consultas SQL, con varios parámetros de agrupación y fácil manipulación. Ver
ROLAP: Relational OLAP.
Relaciones.
Consultas SQL
Escalan bien a grandes volúmenes
Son menos eficientes.
HOLAP: Híbrido OLAP.
Datos agregados. MOLAP
Datos detallados. ROLAP
Construcción del Data Warehouse.
El ciclo del desarrollo del data warehouse no difiere en mucho de las fases de perfeccionamiento de todos los desarrollos de software. Las fases y las secuencias son las mismas, pero existen variantes únicas asociadas al data warehouse. Comprende
Planeación
En esta fase se determina: El enfoque que se optará para la implementación: Top-Down (De Arriba abajo), Bottom-up (De abajo a arriba) o una combinación de estas dos. La metodología de desarrollo: Las más usuales son el método de análisis y diseño estructurado y el método del desarrollo en espiral.
Requerimientos
Especificación clara y precisa de las funciones que se esperan obtener del data warehouse. Estos deben definirse desde varias perspectivas: propietario, arquitecto o desarrollador del data warehouse y desde la visión del usuario. Se definen las áreas tema que apoyará la bodega de datos, las dimensiones de categorización (tiempo, geografía, industria, grupo de clientes, línea de producto, etc.).
Análisis
Consiste en convertir todos los requerimientos conseguidos en la fase anterior en especificaciones concretas que sirvan de base para el diseño. Se definen los modelos lógicos de los datos para el data warehouse, los mercados de datos, definir los procedimientos de conexión con las fuentes de datos y el data warehouse y las herramientas de acceso del usuario final.
Diseño
Los modelos lógicos conseguidos en la anterior fase se convierten en modelos físicos. Se generan los diseños para programas y procesos que se requieren según la arquitectura, tanto a nivel de los datos como de aplicación. Construcción. Se conoce también como diseño físico y consiste en plasmar en la práctica, los diseños lógicos de la fase anterior. Incluye la construcción de programas que creen y modifiquen las bases de datos, que extraigan datos de las fuentes, programas para transformación de datos tales como integración, resumen y adición, programas para la actualización de los datos, programas para búsquedas en bases de datos muy grandes.
Montaje
Relacionados con la instalación, puesta en marcha y uso del data warehouse. Un elemento importante consiste en concientizar a los usuarios sobre la disponibilidad, beneficios y presentación de data warehouse, esto se conoce como comercialización de la información.
Con base a este trabajo hemos concluido cual es la importancia que tienen las bodega de datos y el manejo frente a una empresa,
El desarrollo que tiene BD, se deben implementar siguiendo determinados pasos y normas.
Una BD es eficiente o confiable si sus aspectos de seguridad cumplen con todo los requerimiento.
CARLOS MAURICIO GUISAO CARTAGENA
LEON PADILLA URZOLA
Enviado por:
José Valle
TECNOLOGÍA EN INFORMATICA
AREA BASE DE DATOS
UNIMINUTO
BELLO
2005