Descargar

Minería de datos


Partes: 1, 2, 3, 4

    1. El problema
    2. Marco teórico
    3. Glosario de términos básicos
    4. Marco metodológico
    5. Análisis de resultados
    6. Conclusiones y recomendaciones
    7. Referencias bibliográficas

    INTRODUCCIÓN

    En muchas áreas del saber, el conocimiento se ha venido obteniendo por el clásico método hipotético-deductivo, en él cual es fundamental el paso inductivo inicial: a partir de un conjunto de observaciones y de unos conocimientos previos, la intuición del investigador le conduce a formular la hipótesis. Esta "intuición" resulta inoperante cuando no se trata de observaciones aisladas y casuales, sino de millones de datos almacenados en soporte informático. En el fondo de todas las investigaciones sobre inducción en bases de datos subyace la idea de automatizar ese paso inductivo.

    Las técnicas de análisis estadístico, desarrolladas hace tiempo, permiten obtener ciertas informaciones útiles, pero no inducen relaciones cualitativas generales, para esto se requieren técnicas de análisis inteligente que todavía no han sido perfectamente establecidas. Por ello, se incrementa de forma continua la diferencia existente entre la cantidad de datos disponibles y el conocimiento extraído de los mismos. Pero cada vez más investigaciones dentro de la inteligencia artificial están enfocadas a la inducción de conocimiento en bases de datos. Consecuencia de esta creciente necesidad ha aparecido un nuevo campo de interés: la minería de datos, que incluye los nuevos métodos matemáticos y técnicas para análisis inteligente de datos.

    El almacenamiento de datos se ha convertido en una tarea rutinaria de los sistemas de información de las organizaciones. Esto es aun más evidente en las empresas de telefonía, el marketing directo y en las instituciones públicas. Los datos almacenados son un tesoro para las organizaciones, es donde se guardan las interacciones pasadas con los clientes, la contabilidad de sus procesos internos, representan la memoria de la organización. Pero con tener memoria no es suficiente, hay que pasar a la acción inteligente sobre los datos para extraer la información que almacenan. Este es el objetivo de la minería de datos.

    En este contexto, el propósito de este proyecto es estudiar de que manera la familia de Top Down Induction Trees (árboles inductivos de arriba hacia abajo), conocida como TDIDT las cuales representan sus siglas en ingles, que aborda el problema de inducir árboles de decisión, puede utilizarse para descubrir automáticamente reglas de producción a partir de la información disponible en la base de datos de censo de población del estado Lara.

    El aprendizaje inductivo es un caso particular entre las técnicas de aprendizaje a partir de ejemplos, siendo su cometido el inducir reglas a partir de los datos históricos disponibles para lo cual procederá a clasificar en la clase correspondiente diferentes objetos, basándose en el valor de las características o atributos que los definen.

    Un árbol de decisión es importante no porque resume lo que se sabe, sino porque se espera que clasifique correctamente nuevos casos que se puedan tener.

    Así, cuando se construyen modelos de clasificación se deben tener datos de entrenamiento para saber cómo funciona realmente. Por ello, este estudio tiene como objetivo diseñar un sistema que permita la aplicación de minería de datos utilizando árboles de decisión en la base de datos de censo de población del Estado Lara, siendo estructurado en capítulos, los cuales se describen seguidamente:

    En el Capítulo I, se presenta el problema conjuntamente con el planteamiento del problema y se formulan los objetivos de la investigación, así como la justificación e importancia, alcances y limitaciones del mismo.

    El Capítulo II, en este capítulo se presenta la fundamentación teórica que sirve de base a este trabajo de investigación, incluyendo los diferentes términos básicos que permiten al lector entender el significado de las palabras planteadas.

    En el Capítulo III, se establece el marco metodológico utilizado para alcanzar los objetivos propuestos y se hace un análisis de la factibilidad técnica, económica y operativa del proyecto.

    El Capítulo IV, presenta todo lo referente a la elaboración del sistema, estructurado en una serie de módulos para el manejo y procesamiento de la información.

    Y en el Capítulo V, se hace referencia a conclusiones, recomendaciones y referencias bibliográficas.

    CAPÍTULO I

    EL PROBLEMA

    Planteamiento del Problema

    En Venezuela se realizan diversas investigaciones estadísticas en las áreas científicas, sociales y económicas, pero ninguna abarca la totalidad del territorio, sus habitantes y viviendas, como el censo. La actividad pública del país y ahora en buena parte la privada depende de los aspectos cuantitativos de estos datos.

    Bolívar (1995), expone que la tradición censal en Venezuela comienza en 1873 con el levantamiento del Primer Censo Oficial de la República; decretado por el presidente Antonio Guzmán Blanco y ejecutado por la recién creada Dirección General de Estadísticas y Censos Nacionales, adscrita al Ministerio de Fomento.

    Este censo constituyó el primer inventario oficial de la población del país, considerando que los recuentos efectuados durante la Colonia solo fueron estimaciones aproximadas del tamaño poblacional de Venezuela. Sus resultados fueron publicados en la serie de "Apuntes Estadísticos" del Ministerio de Fomento, durante los años 1875-77.

    Posteriormente, se llevaron a cabo los censos de 1881 y 1891, finalizando así el siglo XIX con empadronamiento de periodicidad decenal.

    En la década de los años 20, después de 29 años sin censos, se levantan dos con un intervalo de seis años: 1920 y 1926, y en 1936 se levanta el siguiente censo. En 1938, mediante la Ley de Estadísticas y Censos Nacionales dictada en ese año se reduce la periodicidad de los censos a cinco años y se levanta en 1941 el séptimo censo. El 12 de julio de 1944 se promulga una nueva ley de Estadísticas y Censos Nacionales, actualmente vigente, en la cual se establece de nuevo el levantamiento del censo de población cada diez años a partir de 1950.

    Con el censo de 1950 Venezuela queda incorporada al programa Censal de las América, formulado por la Organización de las Naciones Unidas para promover y coordinar la realización de censos de población y vivienda en el continente. El fin primordial de este programa es propiciar la obtención de resultados uniformes que permitan la adecuada comparabilidad entre los diferentes países. Enmarcados dentro de este programa, se levantaron los censos de 1950, 1961, 1971, 1990 y 2001, que también se realizaron en Argentina, Brasil, Chile, Ecuador, Estados Unidos y México.

    Los primeros censos oficiales del país se realizaron con el fin de determinar las obligaciones tributarias y militares de los individuos, el potencial de fuerza de trabajo del país y los cambios ocurridos en la condición jurídica de las personas. En estos censos el objetivo primordial era el recuento de la población y sus características demográficas básicas.

    A partir de 1936 los censos del país evolucionaron en sus objetivos, debido a la consideración de fines más diversos propuestos por las organizaciones públicas y privadas, nacionales e internacionales, y la sociedad en general. En lo que respecta a la investigación de las características de las viviendas, esta se inicio en forma sistemática con el censo de 1941. La información recabada en los censos de 1981 y 1990, ha permitido el estudio de la situación habitacional del país, combinando la información de las viviendas y de los hogares.

    Partes: 1, 2, 3, 4
    Página siguiente