Descargar

Estudio de Herramientas para limpiar Direcciones Postales


Partes: 1, 2

    1. Resumen
    2. Almacenes de Datos
    3. Limpieza y calidad de datos
    4. Segmentación y estandarización de direcciones postales
    5. Hidden Markov Models (HMM)
    6. Suavizamiento (Smoothing)
    7. Algoritmo de Viterbi
    8. Mejoras al HMM para la segmentación de direcciones
    9. Taxonomía de símbolos
    10. Distancia de Levenshtein
    11. Conclusiones
    12. Bibliografía

    RESUMEN

    En este trabajo se trata sobre la importancia de que los Almacenes de Datos contengan información con calidad, libre de suciedades y lo más detallada posible. Se pone atención a la segmentación como paso fundamental y de apoyo a otras tareas de limpieza de datos y, específicamente, en la segmentación de direcciones postales. Se explican de manera general técnicas y herramientas para llevar a cabo las tareas de limpieza de datos, especialmente de direcciones postales. Finalmente, se describen técnicas novedosas utilizadas para realizar de forma bastante satisfactoria la segmentación y normalización de direcciones postales.

    Palabras clave: Limpieza de datos, Modelos Ocultos de Markov, HMM.

    1. Almacenes de Datos.

    "Una organización puede ser rica en datos y pobre en información, si no sabe cómo identificar, resumir y categorizar los datos" (Madnick, 1993)

    La tecnología de los almacenes de datos o datawarehouses (DW), se encuadra dentro de la línea de evolución de las bases de datos hacia una mayor funcionalidad e inteligencia.

    Algunos los relacionan estrechamente con los sistemas de Inteligencia en el Negocio (Business Intelligence (BI)) y otros con los Sistemas para el Soporte a la Toma de Decisiones (Decision Support Systems (DSS)), pero en cualquier caso son considerados una solución integral y oportuna para apoyar la toma de decisiones y desarrollar exitosamente el negocio.

    Existen muchas definiciones para el DW. Quizá la más conocida fue propuesta por Inmon, considerado el padre de los Almacenes de Datos, en 1992: "Un DW es una colección de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados para soportar necesidades empresariales".

    En esta definición se plantea que deben conformarse orientados hacia materias o temas (por ejemplo, clientes o productos), con datos y metadatos perfectamente integrados y coherentes con respecto al nombre de las variables, los formatos de los campos, la medida de los atributos y la codificación de estructuras, con información histórica para comparar datos en distintos períodos de tiempo e identificar tendencias. Toda esta información, una vez incorporada al DW debe mantenerse, en general, invariable, cargándose pocas veces en el tiempo y no permitiendo actualizaciones frecuentes.

    Detrás de la arquitectura de un DW existe un conjunto básico de procesos de suma importancia para el mismo, entre los cuales se pueden mencionar algunos elementales como:

    • El proceso de extracción, que consiste en estudiar y entender los datos fuente, tomando aquellos que son de utilidad para el almacén.
    • El proceso de transformar a una forma presentable y de valor para los usuarios
    • La carga de los datos en el DW
    • Controles de calidad para asegurar que la misma sea correcta.

    De estos procesos, es importante para las empresas ponerle atención a la transformación de datos, donde se incluyen operaciones de corrección de errores, resolución de problemas de dominio, borrado de campos que no son de interés, generación de claves, agregación de información, etc.

    La transformación de datos es necesaria porque no siempre los datos están en la forma más adecuada para poder aplicar los métodos que hacen falta para la tarea que se ha de llevar a cabo y el modelo que se quiere obtener.

    Esta fase, aunque parezca sencilla, conlleva aproximadamente el 70% del esfuerzo en los proyectos de DW.

    1. Limpieza y calidad de datos

    "Every meaningful data warehouse application needs good data"

    Un asunto en DW que es universalmente reconocido, pero la mayoría de las veces ignorado, es la limpieza de datos de un almacén. Se han identificado tres temas fundamentales como los mayores problemas en el manejo de datos corporativos, que se personifican con frases muy comunes y de los cuales solo se atacan con fuerza los dos primeros aquí mencionados.

    • El acceso a datos: "Tenemos uno de los más grandes volúmenes de datos pero no podemos acceder a ellos".
    • Las herramientas de consulta: "Yo quiero un sistema que me muestre qué es importante y entonces preguntar por qué".
    • La integridad de los datos: "Nosotros sabemos que algunos de nuestros datos no son muy buenos. Por ejemplo, no tenemos una única lista mantenida de clientes"

    El problema de la limpieza de datos es poco tratado o evadido por muchas empresas, lo que conlleva no considerar adecuadamente el impacto negativo para el negocio de tener almacenada información deficiente.

    Un estudio realizado en el año 2005 plantea que :

    • "El 25% de nuestros datos son defectuosos, y un 48% de las empresas no invierten esfuerzos y dinero suficiente en la depuración y el mantenimiento de sus bases de datos."
    • "El éxito o fracaso en un proyecto Costumers Relations Management (CRM), DW, e-Business o Enterprise Resource Planning (ERP), depende en gran parte de la calidad de datos e información interna".
    • "El 75% de 600 empresas confesaron tener problemas internos serios por problemas de calidad de datos".

    Y prosigue la misma referencia : "Así, surge la pregunta: Si tan solicitadas son las bases de datos, si todos estamos de acuerdo en que la información de nuestros clientes y nuestros mercados es nuestro activo más importante, si la calidad de la información es el primer paso en cualquier proyecto de implantación de tecnología de información, entonces, ¿cómo puede convertirse en un problema?"

    Según la experiencia de ese autor, esta situación es básicamente debida a lo siguiente:

    • Hay mucha información con distintos orígenes.
    • La información es dinámica y sometida a constantes cambios.
    • Se tiende a infravalorar las carencias y sus consecuencias.
    • El no-reconocimiento de la importancia de la información y los datos.
    • Es un tema político: información es poder. Abordar un proyecto de calidad de datos, muchas veces implica cambios en la organización de la empresa.
    Partes: 1, 2
    Página siguiente