- Resumen
- La Minería de Datos y el Descubrimiento de Conocimiento en Bases de Datos
- Herramientas para la minería de Datos. SQL Server 2005
- Metodologías de desarrollo para proyectos de Minería de Datos. CRISP-DM
- Resultados del Caso de Estudio
- Evaluación
- Despliegue
- Conclusiones
- Recomendaciones
- Referencias
Obtención de patrones y reglas en el proceso académico de la Universidad de las Ciencias informáticas utilizando técnicas de minería de datos
RESUMEN
A partir de la aplicación de un grupo de técnicas de Minería de Datos como el clustering, los árboles de decisión y algoritmos de aprendizaje inductivo, se pretende clasificar a los estudiantes de acuerdo a su rendimiento académico, para posteriormente encontrar patrones ocultos y reglas que los caractericen; basado en las relaciones que se establecen entre el centro de procedencia de los estudiantes, nivel de escolaridad de los padres y provincia de origen con sus resultados académicos en el primer curso en la universidad. Estos resultados pueden mejorar el proceso de formación académica y elevar la calidad de la educación en la Universidad de las Ciencias Informáticas (UCI).
Palabras claves: Calidad del proceso docente, Descubrimiento de Conocimientos en Bases de Datos, Minería de Datos.
ABSTRACT
This investigation intends to classify the students of the University of Informatics Sciences according to their academic behaviour using a set of Data Mining techniques like clustering, decision trees and inductive learning algorithms. The main goal of this work is to find hidden patterns and rules that define this behaviour, based on the relationship established between the scholarship level of the student’s parents, and their academic origins with their grades in the first year of their career. These results can help to improve the quality of the academic process in the UCI.
Key words: Quality of the academic process, Knowledge Discovery in Databases, Data Mining
INTRODUCCIÓN
La Universidad de las Ciencias Informáticas (UCI) cuenta desde el curso escolar 2006-2007 con una matrícula de alrededor de 10 000 estudiantes procedentes de todas las provincias y municipios del país, con los más diversos orígenes sociales y académicos; sin que, hasta el momento, se hayan realizado estudios que evalúen la influencia de estos factores en su formación posterior. Por lo que estos factores no son tomados en cuenta a la hora de realizar el proceso de captación de los estudiantes de nuevo ingreso a la universidad, ni de brindarles a los ya matriculados el seguimiento necesario, lo que puede conducirlos en condiciones extremas a causar baja del centro. Mientras que en otros casos se dejan de identificar a los alumnos con mayor potencial, que pudieran formar parte de proyectos o grupos de investigación, o simplemente armar al claustro de profesores con la información conveniente para que puedan brindarle atención diferenciada a sus estudiantes en aras de fomentar el pleno desarrollo de sus capacidades y dándole así cumplimiento al objetivo primordial de la Universidad, que es el de formar profesionales de la informática cada vez mejor preparados.
Toda la información personal y docente de los estudiantes, desde hace cinco años se encuentra digitalizada y se mantiene en históricos que no brindan mayor utilidad que la de los reportes tradicionales.
Es por esto que en la Universidad se hace necesario contar con métodos eficientes y automáticos para explorar las grandes Bases de Datos, procesando de forma rápida y fiable la información para encontrar patrones de conocimiento apropiados para resolver un problema.
Es por esto que el objetivo fundamental de este trabajo está orientado a determinar el vínculo que existe entre el origen y procedencia social de los estudiantes de la UCI con sus resultados académicos mediante la aplicación de técnicas de agrupación y reglas de asociación de Minería de Datos.
La Minería de Datos (DM) por las siglas en inglés Data Mining es el proceso de extraer conocimiento útil y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos [1]. Las herramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo en los negocios la toma de decisiones.
Existen términos que se utilizan frecuentemente como sinónimos de la minería de datos. Uno de ellos se conoce como "análisis (inteligente) de datos" [2], que suele hacer un mayor hincapié en las técnicas de análisis estadístico. Otro término muy utilizado, y el mas relacionado con la minería de datos, es la extracción o "descubrirniento de conocimiento en bases de datos" (Knowledge Discovery in Databases o KDD, según sus siglas en inglés). [3]
Aunque algunos autores usan los términos Minería de Datos y KDD indistintamente, como sinónimos, existen claras diferencias entre los dos. Así la mayoría de los autores coinciden en referirse al KDD como un proceso que consta de un conjunto de fases, una de las cuales es la minería de datos. [2] De acuerdo con esto, el proceso de minería de datos consiste únicamente en la aplicación de un algoritmo para extraer patrones de datos y se llamará KDD al proceso completo que incluye pre-procesamiento, minería y post-procesamiento de los datos.
El KDD según [4] es la extracción automatizada de conocimiento o patrones interesantes, no triviales, implícitos, previamente desconocidos, potencialmente útiles y predictivos de la información de grandes Bases de Datos.
La figura 1 muestra las fases del proceso de KDD, una de las cuales es la Minería de Datos
Figura 1: Fases del proceso KDD
Las investigaciones en temas de KDD incluyen análisis estadístico, técnicas de representación del conocimiento y visualización de datos, entre otras. Algunas de las tareas más frecuentes en procesos de KDD son la clasificación y clustering, el reconocimiento de patrones, las predicciones y la detección de dependencias o relaciones entre los datos.
Página siguiente |