Procesamiento de Lenguaje Natural (NLP) (página 2)

Partes: 1, 2, 3

Detección de Plagio Texto-a-voz & Reconocimiento de voz Recuperación de Información & Extracción de Información Sumarización (resúmenes) Automática Corrección de Textos– Ortografía & Gramática Interfaces de Diálogo de Lenguaje Natural a Bases de Datos Clasificación de Documentos Tradución automática (asistida) Sistemas para entender historias Análisis de documentos en imágenes APLICACIONES DE LAS TECNOLOGIAS DEL LENGUAJE Question answering Respuestas automáticas

Categorización/Ruteado de Texto Enseñanza/Aprendizaje del Lenguaje

edu.red

Madurez de las Tecnologías de Voz Sistemas Controlados por Voz Sistemas de Dictado Sistemas de Texto-a-Voz Sistemas de Diálogo Hablado drigido por la computadora Sistemas de Identificación y Verificación Acceso Hablado a la Información Sistemas abiertos de Diálogo Hablado Sistemas autmáticos de Traducción de Voz

Deployed. En el mercado Maduro o cerca de la madurez Prototipos de investigación en R&D

edu.red

Madurez de las Tecnologías – Recuperación Información Recuperación de Información Basada en Palabras Sumarización por Condensación Simple Categorización Estadística Simple Hiperligado Automático Simple Recuperación de Información Cross-Lingual Hiperligado Automático con Desambiguación Extracción de Información Simple (Unario, Relaciones Binarias) Extracción de Información Compleja (Ternario+ Relaciones) Hiperligado Denso Asociativo Recuperación de Información Basada en Conceptos Comprensión de Texto Deployed. En el mercado Maduro o cerca de la madurez Prototipos de investigación en R&D

edu.red

Checadores de ortografía Traductores asistidos por la computadora en dominios predeterminados Checadores de Gramática Herramientas de extracción de Información Traductores automáticos asistidos por expertos Generación automática de Reportes Traducción de Texto de Alta Calidad Sistemas de Generación de Texto Madurez de las Tecnologías de Análisis de textos Deployed. En el mercado Maduro o cerca de la madurez Prototipos de investigación en R&D

edu.red

Ejemplos de avances del PLN:

Para la Traducción automática:

Traductor de Google : Servicio de traducción automático multilingüe con enfoque estadístico Traducción de texto, voz, imágenes, sitios web, o video text, speech, images, sites, o video en tiempo real, de un idioma al otro.

Traductor de Skype : Aplicación de traducción voz-voz Los usuarios conversan en su idioma nativo y la voz es traducida al otro idioma, casi en tiempo real. https://translate.google.com https://support.skype.com

edu.red

Herramientas avanzas de Recuperación de Información (web search engines) Google Yahoo Bing Baidu … https://www.google.com https://www.yahoo.com Ejemplos de avances del PLN:

edu.red

Reconocimiento automático de voz Apple Siri and Microsoft Cortana Asistentes inteligentes personales Interfaces para responder preguntas, hacer recomendaciones y ejecutar acciones delegando peticiones a conjuntos de servicios web https://support.microsoft.com https://support.apple.com Ejemplos de avances del PLN:

edu.red

Análisis de textos : el problema Cuando la gente lee un texto, entiende su significado Quisiéramos contar con agentes computacionales capaces de encontrar el significado de lo que leen. Se han elaborado múltiples propuestas para formatear los textos de maenra estructurada, con mayor semántica. Pero con frecuencia, el lenguaje usado es complejo y ambigüo

edu.red

Manejo de la escalabilidad de los lenguajes

Desambiguación del significado o sentido de las palabras

Análisis semántico e interpretación

? RETO: Descubrir el SIGNIFICADO

Siguen siendo retos para el PLN:

edu.red

Manejo de la escalabilidad en los lenguajes

Gran cantidad de información en la web (Big data). ¿Cómo manejarla? ¿Qué clase de información se puede extraer?

Las técnicas no se pueden extender fácilmente: El lenguaje es una identidad cultural. Distintos lenguajes, cada uno con sus propias características.

Enfoques para extraer información: Técnicas secuenciales o paralelas. Métodos de aprendizaje supervisado. Técnicas de minería de datos.

edu.red

Mayor eficiencia para analizar conjuntos grandes de datos (large data sets): Información de los medios sociales. Seguridad informática.

Apicaciones relacionadas con problemas del cuidado de la salud: Comprensión de la enfermedad. Cuidado del paciente.

Análisis del lenguaje con técnicas de cómputo paralelo y distribuido.

*Plale, B. (2013). Big data opportunities and challenges for IR, text mining and NLP. AVANCES

Manejo de la escalabilidad en los lenguajes

edu.red

MSRLM: Un kit para modelar lenguaje escalable * Habilidad para crear relativamente modelos grandes de lenguaje como modelos n-gramas. Usa una representación de espacio vectorial. Construye un modelo de lenguaje en un hardware de high-end sobre 40 billones de palabras de datos web en menos de 8 horas.

CNTK: Computational Network Toolkit ** Herramienta para el análisis de redes especialmente diseñado para trabajar usando no sólo CPU’s sino también GPU sencillos y multi GPU. Soporta muchas herramientas para problemas de PLN como traducción automática.

*Nguyen, P, et al. (2007). MSRLM: a scalable language modeling toolkit. ** https://github.com/Microsoft/CNTK

Manejo de la escalabilidad en los lenguajes

AVANCES

edu.red

Significados múltiples asociados a la información: ¿Cómo manejarla? ¿Cómo obtener un sentido real? … modelado del contexto

Dominio de la información: Tópicos diferentes, nuevas palabras, nuevas reglas, nuevas excepciones.

Técnicas para extraer características claves: Métodos de aprendizaje supervisado. Técnicas de minería de datos. RETO: Desambiguación del significado o sentido de las palabras

edu.red

Conceptualizaciones de dominios específicos de interés usando ontologías.

Identificación de la correcta traducción de una palabra u oración en un contexto específico (traducción automática).

Extracción de información relevante de cuidado de la salud que contiene una gran cantidad de términos con más de un significado posible: Información clínica. Información biomédica.

*Bhala, V. B. R. V. & Abirami, S. (2014). Trends in word sense disambiguation. RETO: Desambiguación del significado o sentido de las palabras

edu.red

DeepText: Motor de Facebook para el entendimiento de texto*. Un motor de entendimiento de texto basado en aprendizaje profundo (deep learning-based) que puede entender con una exactitud casi humana el contenido de texto con varios miles de posts por segundo. Usa diferentes arquitecturas de redes neuronales tales como redes neuronales convolucionales y recurrentes. *https://code.facebook.com/posts/research/.

NLPWin: Computational Network Toolkit** Proporciona herramientas para Procesamiento de Lenguaje Natural en Windows. Soporta un parser gramatical, traductor y checador de desambiguación de sentido. https://www.microsoft.com/en-us/research/project/nlpwin/

AVANCES en: Desambiguación del significado o sentido de las palabras

edu.red

Procesar lenguaje para producir conocimiento de sentido común acerca del mundo.

Obtener información valiosa de metadata: ¿Cómo representar conocimiento? ¿Qué clase de información es relevante?

Técnicas para representar información: Modelos de grafos. Modelos de espacios vectoriales. RETO: Análisis semántico e interpretación

edu.red

Investigación criminalidad sobretextos forenses – Identificación del autor. Perfil del autor.

Análisis de Sentimientos: Clasificación de la Polaridad del Mensaje. Cuantificación del Sentimiento. Minería de opiniones.

Similitud de textos y Respuestas a Preguntas (Question Answering).

Detección de unidades semánticas mínimas y su significado.

Nakov, P. & Zesch, T. (2016). Computational semantic analysis of language: SemEval-2014 and beyond. EJEMPLOS APLICACIONES del Análisis semántico

edu.red

Diferentes herramientas para análisis de sentimientos tales como el motor de recomendación de Amazon o el motor analítico de Twitter.

No existen muchas herramientas para problemas de autoría o perfil de autor. AVANCES del Análisis semántico e interpretación

edu.red

Principales competencias internacionales de investigación para evaluar nuevos enfoques para atacar problemas de Procesamiento de Lenguaje Natural: CLEF Pan (Europa)*: Una serie de eventos científicos y tareas compartidas sobre el análisis de texto digital y forense. Diferentes problemas como: Detección de plagio, Identificación de autor, Identificación de Acoso Sexual, etc. *http://pan.webis.de/

SemEval (Norteamérica)**: Una serie de evaluaciones de análisis de sistemas de semántica computacional. Diferentes problemas como: desambiguación del sentido de las palabras, Pregunta-respuesta (Question Answering), Análisis de sentimientos, etc. ** http://alt.qcri.org/semeval2016/

edu.red

Enfocándose en problemas de análisis de texto

Crear diferentes representaciones basadas en grafos para descubrir patrones relevantes en documentos de texto.

Extraer diferentes características lingüísticas para resolver el problema de clasificación de un texto. (Gp:) Documentos de texto (Gp:) Problema de clasificación

(Gp:) Características Lingüísticas: Lexicales Sintáctica Semántica (Gp:) Grafos

edu.red

Verificación de autor Perfilado del autor Atribución de autor Análisis de sentimientos Problemas de análisis de texto

edu.red

Perfilado del autor Análisis de sentimientos Problemas de análisis de texto

Verificación de autor Atribución de autor Obtener/Confirmar quién es el autor de un document de texto.

edu.red

Atribución de autor Grafo propuesto, topología estrella: Vértices: todas las palabras en un corpus de entrenamiento, except palabras de alto. Ligas: Relación léxico-sintáctica. Una liga se crea si dos palabras aparecen juntas en un texto (al menos una vez). Extraer palabras relevantes, aquellas que caracterizan el estilo de escritura de un autor.

*Castillo, E, et al. (2015). Author attribution using a graph based representation.

edu.red

Atribución de autor

Usar una técnica de minería de grafos para iterar sobre los diferentes caminos del grafo, para encontrar las palabras relevantes.

Usamos un método de aprendizaje supervisado.

Resultados excelentes cuando los textos son largos, pero regulares cuando los textos son pequeños ( como en un tweet).

Partes: 1, 2, 3

Página anterior

Volver al principio del trabajo

Página siguiente