Descargar

Modelo y Procedimiento para Segmentar Direcciones Postales


Partes: 1, 2

    1. Resumen
    2. Procedimiento basado en HMM
    3. Definir sustituciones
    4. Seleccionar un conjunto de entrenamiento y de de prueba . Hacer sustituciones en el conjunto de entrenamiento
    5. Formar diccionarios para cada nodo del modelo
    6. Calcular las matrices A y B del HMM externo y de los internos, a partir del conjunto de entrenamiento
    7. Obtener campos llaves del fichero y campos de direcciones postales del conjunto de prueba. Hacer sustituciones en el conjunto de prueba. Probar el modelo entrenado con el conjunto de prueba
    8. Generar ficheros
    9. Revisar por ciento de efectividad de los resultados obtenidos de la prueba. Mejorar el modelo
    10. Preprocesar direcciones. Obtener campos llaves y campo de dirección postal
    11. Hacer sustituciones en el conjunto de direcciones a segmentar. Generar fichero con conjunto de direcciones segmentadas asociadas a su llave o clave de registro
    12. Funcionamiento general del modelo
    13. Conclusiones
    14. Bibliografía
    15. Anexos

    RESUMEN

    En este trabajo se propone un procedimiento basado en HMM (Hidden Markov Models) en unión de otras técnicas y del conocimiento adquirido en el estudio de un conjunto de direcciones postales de la base de datos de una organización empresarial, para segmentarlas automáticamente, dando un paso importante para su estandarización y mejor utilización de la información que llevan en ellas. De la misma manera se propone un Modelo general con el mismo fin.

    Palabras clave: Limpieza de datos, Modelos Ocultos de Markov, HMM.

    1. Una caracterización previa de las direcciones postales de la base de datos de los clientes de una organización empresarial, permitió conocer una gran parte de los problemas existentes en dichas direcciones. De ese estudio se derivó una estructura para las direcciones postales que contiene los elementos necesarios para posibilitar una segmentación más ajustada a los intereses de la organización estudiada.

      También se construyó un Modelo Oculto de Markov externo para las direcciones postales de esa organización, así como los Modelos Ocultos de Markov internos para cada uno de los elementos que componen la estructura de una dirección postal. La totalidad del estudio realizado previo al trabajo que aquí se presenta, es un avance en la configuración de un procedimiento para segmentar correctamente las direcciones, como paso previo para conformar con estas un Almacén de Datos eficiente y eficaz.

    2. Introducción.
    3. Procedimiento basado en HMM

    El procedimiento que se propone en este trabajo para segmentar y normalizar las direcciones en la organización empresarial que es motivo de estudio, es el siguiente:

    1. Analizar direcciones.
    2. Proponer estructura de las direcciones.
    3. Definir modelo general basado en HMM.
    4. Definir sustituciones.
    5. Seleccionar un conjunto de entrenamiento y de prueba.
    6. Hacer sustituciones en el conjunto de entrenamiento.
    7. Formar diccionarios para cada nodo del modelo.
    8. Calcular las matrices A y B del HMM externo y de los internos a partir del conjunto de entrenamiento.
    9. Obtener campo(s) llave(s) y campo(s) de direcciones postales del conjunto de prueba.
    10. Hacer sustituciones en el conjunto de prueba.
    11. Probar el modelo entrenado con el conjunto de prueba.
    12. Generar fichero con conjunto de direcciones segmentadas asociadas a su llave o clave de registro.
    13. Generar fichero con partes de direcciones que no pudieron ser procesadas automáticamente asociadas a su llave o clave de registro.
    14. Revisar por ciento de efectividad de los resultados obtenidos de la prueba.
    15. Mejorar el modelo.
    16. Preprocesar direcciones.
    17. Obtener campo(s) llave(s) y campo de dirección postal.
    18. Hacer sustituciones en el conjunto de direcciones a segmentar.
    19. Utilizar modelo probado para segmentar direcciones.
    20. Generar fichero con conjunto de direcciones segmentadas asociadas a su llave o clave de registro.
    21. Generar fichero con partes de direcciones que no pudieron ser procesadas automáticamente asociadas a su llave o clave de registro.

    El primer paso que se propone en este procedimiento es hacer un estudio de un conjunto de direcciones características, que van aportando poco a poco a la estructura que forma las direcciones de determinada localidad, municipio o región que se esté analizando. Este paso es fundamental pues de aquí surge la estructura implícita que contienen las direcciones y algunas restricciones y detalles que deben ser tomados en cuenta para su posterior procesamiento automatizado.

    La estructura que llevan implícitas las direcciones de determinado lugar puede ser propuesta a partir del análisis de estas. En este trabajo se estudiaron las características de las direcciones postales de la ciudad de Santa Clara, municipio cabecera de la provincia de Villa Clara, Cuba, y luego de este estudio se propuso una estructura. En el Anexo III se puede ver la estructura a la que se arribó con este trabajo.

    El modelo basado en HMM que se propone utilizar consta de un HMM externo y un HMM interno por cada nodo que forma el HMM externo. El HMM externo propuesto, en una versión simplificada, puede verse en el Anexo I de este trabajo. Un ejemplo de HMM interno, de un total de 17, puede verse en el Anexo II.

    Estos tres pasos iniciales ya habían sido llevados a cabo al elaborar este trabajo, por lo que no se detallan aquí, y solo se explican a continuación los demás pasos.

    Partes: 1, 2
    Página siguiente