Minería de datos para los sistemas gestores de bases de datos
Enviado por BRENDA MARIZA QUINTERO BELTRAN
Resumen
Muchas de las decisiones importantes que se toman alrededor del mundo se basan en observaciones y/o eventos que han sido previamente registrados de alguna forma en una base o modelo de datos. Esta informacion puede llevar a analistas de mercado a tomar decisiones en cuanto a la compra o venta de acciones, a medicos que trabajan en la obtencion de tecnicas para detectar enfermedades a tiempo, etc.
Palabras Clave—Mineria de Datos, Tecnicas de Mineria de Datos, Almacen de Datos, Algoritmos de Mineria de Datos.
1 INTRODUCCION
En la actualidad es un gran reto para las organizaciones manejar grandes volumenes de informacion, ya que los datos que se llegan a almacenar pueden contener demasiadas propiedades o atributos que causan que la informacion sea complicada de visualizar a primera instancia asi tambien las bases de datos pueden llegar a almacenar miles o millones de instancias de datos, las cuales pueden llegar a variar despues de cientos o miles de muestras. Esto hace que en ocasiones las organizaciones no sean capaces de utilizar al maximo esta informacion, pues no la tienen organizada adecuadamente y carecen de los metodos necesarios para procesarla y analizarla de la mejor manera. Debido a lo importante que es extraer el conocimiento guardado en estos datos, ha surgido lo que se conoce como Mineria de Datos.
Esta investigacion trataralos conceptos y aplicaciones de Mineria de Datos, asi tambien se abordaran temas relacionados a los Sistemas Gestores de Bases de Datos comerciales y Libres que cuentan con tecnicas de Mineria de Datos para el tratamiento de la informacion.
Los SGBD que analizaremos son: SQL Server, Oracle, MySQL y PostgreSQL.
2 CONCEPTOS BASICOS
Para entender mejor de lo que se trata esta investigacion, describiremos los conceptos de Mineria de Datos, Tecnicas de Mineria de Datos, Almacen de Datos.
2.1 ¿Que es un Almacen de Datos?
El almacenamiento de datos se define como un proceso de organizacion de grandes cantidades de datos de diversos tipos "guardados" en la organizacion con el objetivo de facilitar la recuperacion de la misma con fines analiticos.
El almacenamiento de datos tiene un gran importancia en el proceso de mineria de datos pues en cierta medida, permite la recuperacion o al menos la referencia a determinados conjuntos de datos de importancia para un proceso de toma de decision dado. En la actualidad existe gran variedad de sistemas comerciales y libres para el almacenamiento de datos entre los que se destacan Oracle, MS SQL Server, PostgreSQL, MySQL, entre otros.
2.2 Mineria de Datos
La mineria de datos es la extraccion de informacion implicita, desconocida o previamente ignorada, que puede ser potencialmente util, de un conjunto de datos.
Se puede considerar a la mineria de datos como una coleccion de diferentes tecnicas que sirven para inducir el conocimiento e informacion de una manera estructurada de un gran conjunto de datos.
La mineria de datos ayuda a las organizaciones a encontrar informacion que no es perceptible de forma directa, como por ejemplo patrones de comportamiento, relaciones, asociaciones, etc., que nos permitan tomar mejores decisiones. A traves del analisis del pasado, y aplicando algoritmos, se construyen predicciones que nos permiten mejorar nuestra eficiencia y conseguir asi una mayor rentabilidad de la actividad de negocio, y tambien se le relaciona con el descubrimiento del conocimiento en bases de datos conocido como Knowledge Data Discovery (KDD).
2.3 Tecnicas de Mineria de Datos
Las tecnicas de mineria de datos se emplean para mejorar el rendimiento de procesos de negocio o industriales en los que se manejan grandes volumenes de informacion estructurada y almacenada en bases de datos. Por ejemplo, se usan con exito en aplicaciones de control de procesos productivos, como herramienta de ayuda a la planificacion y a la decision en marketing, finanzas, etc.
La mineria de datos tiene una incidencia en diferentes disciplinas como la estadistica, la inteligencia artificial, los aprendizajes de maquina, el reconocimiento de patrones, etc.
Esta se basa en diferentes tipos de tecnicas como redes neuronales artificiales, arboles de decision, algoritmos geneticos, el metodo del vecino mas cercano y las reglas de induccion, entre otras.
3 MINERIA DE DATOS SQL SERVER
SQL Server una plataforma global de base de datos que ofrece administracion de datos empresariales con herramientas integradas de in teligencia empresarial (BI). El motor de la base de datos SQL Server es un almacenamiento seguro y confiable tanto para datos relacionales como estructurados, lo que permite crear y administrar aplicaciones de datos altamente disponibles y con mayor rendimiento para utilizarse en diferentes organizaciones.
3.1 Mineria de Datos SQL Server 2005
Microsoft SQL Server 2005 ofrece un entorno integrado para crear modelos de mineria de datos y trabajar con ellos, este entorno es la tecnologia Business Intelligence que permite construir modelos analiticos complejos e integrar esos modelos con las operaciones comerciales en diferentes tipos de negocios, proporcionando acceso continuo a aplicaciones de amplia difusion e informes, dando cobertura a todos los aspectos del proceso de toma de decisiones.
Microsoft SQL Server 2005 incorpora la herramienta SQL Analysis Server (SSAS), la cual facilita la creacion de sofisticadas soluciones de procesamiento analitico en linea (OLAP) y mineria de datos. Las herramientas de Analysis Services proporcionan la capacidad de diseñar, crear y administrar cubos y modelos de mineria de datos de los almacenes de datos, permiten que el cliente pueda obtener acceso a los datos de la mineria de datos, asi como identificar reglas y patrones en los datos, y asi determinar las razones por las que suceden las cosas y predecir lo que puede pasar en el futuro.
Cuando se crea una solucion de mineria de datos en Analysis Services, primero se crea un modelo que describe el problema y despues se procesan los datos mediante un algoritmo que genera un modelo matematico de ellos, un proceso que se conoce como entrenamiento del modelo. A continuacion, puede explorar visualmente el modelo de mineria de datos o crear consultas de prediccion en el. Analysis Services puede utilizar conjuntos de datos a partir de bases de datos relacionales u OLAP, e incluye una variedad de algoritmos que se pueden usar para analizar estos datos a traves de un modelo UDM o directamente a partir de un almacen de datos fisico.
Entre las facilidades para realizar Mineria de Datos se cuentan:
• El procesamiento de los modelos de una misma estructura de mineria ocurre en paralelo, en una sola lectura de los datos.
• Proporciona mas de 12 visores de resultados para los algoritmos que ayudaran a comprender mejor los patrones encontrados en el proceso de mineria.
• Proporciona graficos de elevacion, de beneficios y una matriz de clasificacion que permite establecer una comparacion de lo real con lo previsto; para contrastar y comparar la calidad de los modelos.
• Posee un lenguaje para la creacion de consultas de mineria (DMX) similar al SQL que facilita la tarea de creacion de aplicaciones de mineria de datos.
• Cuenta con los algoritmos de mineria mas avanzados: Naive Bayes, Clustering,
3.2 Algoritmos de mineria de datos de Analysis Services
El algoritmo de mineria de datos es el mecanismo que crea un modelo de mineria de datos. Para crear un modelo, un algoritmo analiza primero un conjunto de datos y luego busca patrones y tendencias especificos. El algoritmo utiliza los resultados de este analisis para definir los parametros del modelo de mineria de datos. A continuacion, estos parametros se aplican en todo el conjunto de datos para extraer patrones procesables y estadisticas detalladas.
EL PRESENTE TEXTO ES SOLO UNA SELECCION DEL TRABAJO ORIGINAL. PARA CONSULTAR LA MONOGRAFIA COMPLETA SELECCIONAR LA OPCION DESCARGAR DEL MENU SUPERIOR.