Indice 1. Introducción al reconocimiento de caracteres manuscritos. 2. Reconocimiento de caracteres Kanji. 3. Aplicación experimental.
Introducción al reconocimiento de caracteres manuscritos Definición: Conjunto de técnicas informáticas cuyo objetivo es reconstituir los caracteres de un documento a partir de su propia imagen. En la actualidad esta disciplina científica no sólo engloba la reconstrucción de caracteres, sino la estructuración de los documentos(títulos, subtítulos, bloques de texto, etc..)
Introducción al reconocimiento de caracteres manuscritos Comenzó aplicándose en documentos para los cuales ninguna forma electrónica estaba disponible. A medida que evoluciona la tecnología, sus aplicaciones han ido en aumento. Los resultados obtenidos hasta ahora distan mucho de ser perfectos. El reconocimiento de caracteres sigue siendo un problema complejo que tropieza con dificultades aún no resueltas y que son actualmente aún objeto de numerosas investigaciones.
Introducción al reconocimiento de caracteres manuscritos Varios factores son la causa de estas dificultades: Ausencia de un objetivo universal. Los resultados dependen mucho de la aplicación. Son técnicas por lo general costosas. Muchas son las causas que pueden provocar que los resultados no sean los correctos. Por ejemplo: – resolución insuficiente de la imagen. – introducción óptica de mala calidad. – documento deteriorado.
Introducción al reconocimiento de caracteres manuscritos En general, los sistemas de reconocimiento de documentos y, por lo tanto, de caracteres comprende las siguientes etapas: 1- Adquisición de la imagen mediante escáneres y cámaras. 2- Pretratamiento (Binarización, Filtrado, Rectificación). 3- Segmentación: delimitar las regiones de interés de la imagen. 4- Reconocimiento de caracteres. La etapa sin duda de mayor dedicación.
Introducción al reconocimiento de caracteres manuscritos 5- Reconocimiento de fuentes. 6- Vectorización: transformar las características de la imagen en una línea poligonal o curvilínea. 7- Reconocimiento de gráficos (si es que los hay). 8- Reconocimiento estructural: determinar la organización lógica de las entidades elementales o compuestas. 9- Clasificación de documentos: ser capaz de distinguir el tipo de documento reconocido.
Introducción al reconocimiento de caracteres manuscritos En particular, en la etapa de reconocimiento de caracteres se divide en dos sub-etapas: 1- Extracción de características: – Permite conocer medidas (tamaño, perímetro, centro de gravedad, momentos..). – Características topológicas(orientación de segmentos, número de agujeros, número de extremidades,etc..).
Introducción al reconocimiento de caracteres manuscritos 2- Etapa de decisión: Tres técnicas destacan sobre las demás: 1- Redes neuronales (capacidad de aprendizaje). 2- Cadenas Ocultas de Markov. Estudios y algoritmos probabilísticos. 3- Voto mayoritario. Combinación de diferentes estrategias. Se escogerá la clase con mayor número de clasificaciones. Es la técnica que mejores resultados ofrece.
Introducción al reconocimiento de caracteres manuscritos La mayoría de los tratamientos requieren para su buen funcionamiento una contribución de información del contexto, dependiente del tipo del documento analizado. Esta información se proporciona por los llamados modelos de documentos. Varias etapas del reconocimiento requieren esta clase de conocimientos: un reconocedor de caracteres utilizará por ejemplo una base de datos de caracteres de referencia o diccionarios lingüísticos; el reconocimiento de fuentes necesitará una base de conocimiento de las características de las fuentes en cuestión.
Reconocimiento de caracteres Kanji Metodología para el reconocimiento de caracteres. Propuesta por Toru Wakahara y Yoshimasa Kimura. En principio está estudiada para el reconocimiento de caracteres Kanji, aunque puede ser aplicable a los caracteres occidentales.
Página siguiente |