Recursos de Tecnología Lingüística Analizadores sintácticos Analizador sintáctico
Dado un texto: Obtener el análisis en constituyentes
Asignar funciones
Técnicas de análisis completo Técnicas de análisis superficial
Banco de árboles sintácticos
Recursos de Tecnología Lingüística Analizadores sintácticos Análisis de la frase 'El presidente del gobierno ha declarado esto'
Recursos de Tecnología Lingüística Analizadores sintácticos Permiten: – Consulta de estructuras específicas
– Consultar frases en las que aparece un determinado lema (verbo)
– Obtener los regímenes verbales
– Tipo semántico de los sujetos/objetos
– Control de concordancia N – A
– etc.
Recursos de Tecnología Lingüística Redes semánticas Una red semántica es una manera de representar el conocimiento basada en las relaciones que establecen los conceptos representados.
En les redes lexicosemánticas se representan los conceptos lexicalitzados.
EuroWordNet es la red lexicosemántica más extendida, de manera que se ha constituido como un estándar de representación.
castellano, catalán e inglés
Se utiliza para:
El etiquetado automático de corpus Léxico computacional para obtener relaciones entre palabras Recuperación de información …
Recursos de Tecnología Lingüística Redes semánticas
BUSCA: sinónimos de casa
Sentido 1: Línea aristocrática (nombre) casa Sentido 2: Entidad que elabora un producto (nombre) fabricantecasa Sentido 3: Miembros de una empresa o negocio (nombre) casafirma Sentido 4: Conjunto de personas que viven juntas (nombre) casafamilia Sentido 5: Edificio donde pueden vivir una o más personas (nombre) casa
Recursos de Tecnología Lingüística Redes semánticas
(Gp:) Resultado 0.3 segundos de ejecución) (Gp:) fabricante, casa asunto, negocio
Hay ambigüedad, escoge un sentido:
(Gp:) Sentido 1: Línea aristocrática (nombre)Sinónimos: casa (Gp:) Sentido 2: Entidad que elabora un producto (nombre)Sinónimos: fabricante, casa (Gp:) Sentido 3: Lugar donde se vive (nombre)Sinónimos: casa
Hiperónimos de ….
Recursos de Tecnología Lingüística Redes semánticas Hay ambigüedad, escoge un sentido: Sentido 1: Línea aristocrática (nombre)Sinónimos: casa Sentido 2: Lugar donde se vive (nombre)Sinónimos: casa Sentido 3: País, estado o ciudad donde se vive (nombre)Sinónimos: casa, hogar Sentido 4: Miembros de una empresa o negocio (nombre)Sinónimos: casa, firma Sentido 5: Conjunto de persones que viven juntas (nombre)Sinónimos: casa, familia Resultado (0.2 segundos) casa, familia colectividad grupo social agrupación, grupo, colectivo Hiperónimos de …
Recursos de Tecnología Lingüística Redes semánticas Permiten: Etiquetar corpus con sentidos y consultarlos posteriormente
Obtener los sentidos de una palabra:
sus hiperónimos sus hipónimos sus sinónimos
Combinado con el análisis sintáctico:
obtención de estructuras por cada sentido
Desambiguados Morfosintácticamente (A. M) semánticamente con los synsets de WN
Proporcionan los contextos en los que se usan las unidades léxicas. Proporcionan ejemplos de uso Obtención de terminología relacionada con ciertos dominios (fines específicos).
Recursos de Tecnología Lingüística Corpus
Aplicaciones de las Tecnologías de la Lengua ¿Qué es una aplicación de Ingeniería Lingüística?
Sistema informático que resuelve una tarea inteligente utilizando conocimiento lingüístico. – Programas – Datos/Conocimiento lingüístico – Diseño/Análisis y arquitectura de la aplicación
Aplicaciones de las Tecnologías de la Lengua
1. Correctores de textos 2. Extracción de información 3. Recuperación de información 4. Sistemas de pregunta-respuesta 5. Traducción automática 6. ELAO (Enseñanza de Lenguas Asistida por Ordenador)
Aplicaciones de las Tecnologías de la Lengua1. Correctores de textos Verificación ortográfica
Verificación gramatical
Verificación de estilo
Aplicaciones de las Tecnologías de la Lengua1. Correctores de textos Tecnologías y conocimiento lingüístico
Listas de palabras correctas Declaradas Obtenidas con un analizador/generador Listas de combinaciones de pronombres átonos Tipología de verbos Coapariciones incorrectas datos estadísticos listas predeterminadas (*pienso de que …) Errores de concordancia listas predefinidas análisis morfológico y desambiguación Errores de régimen léxico con información de rección Errores de estilo Identificar repeticiones: analizador morfológico, tratamiento de corpus
Aplicaciones de las Tecnologías de la Lengua2. Extracción de información Obtener de documentos, páginas web, etc. la información relevante
Los sistemas de EI tienen como objetivo transformar una colección de textos en información fácilmente accesible y utilizable
Congresos especializados: Message Understanding Conferences (MUC)
Ponen a prueba los sistemas de extracción de información y los evalúan según unos criterios estándar.
hay que determinar cuál es la información relevante Definición de plantillas de extracción Temas predefinidos
Aplicaciones de las Tecnologías de la Lengua2. Extracción de información (Gp:) Filtrado y segmentación (Gp:) Extracción (Gp:) Análisis sintáctico (Gp:) Análisis Léxico y morfológico (Gp:) Correferencia (Gp:) Fusión (Gp:) Plantilles (Gp:) Plantilles (Gp:) Plantilles (Gp:) Plantillas
documentos Análisis local del texto Análisis del discurso
Aplicaciones de las Tecnologías de la Lengua2. Extracción de información Aplicaciones relacionadas Clasificación de documentos Asignar a cada documento, de una colección, una o más categorías (clases). Hay que predefinir las clases o categorías (ontologías, taxonomías). Técnicas estadísticas: aprendizaje automático a partir de ejemplos.
Minería de datos Encontrar, en una estructura de datos, agrupaciones que responden a un determinado comportamiento o que tienen propiedades similares. Marqueting: perfiles de destinatarios de propaganda.
Resumen automátic Plantilla = resumen del documento
Indexación automàtica
Aplicaciones de las Tecnologías de la Lengua3. Recuperación de información Un sistema de RI : dada una consulta planteada por un usuario ? encontrar los documentos más relevantes de acuerdo con la consulta. Los documentos pueden pertenecer a una colección a una biblioteca digital o ser localizados por algún buscador de Internet.
Líneas de mejora Técnicas de PLN en el tratamiento de la pregunta Selección de pasajes y/o fragmentos
Competiciones del TREC (http://trec.nist.gov) Buscadores de Internet: Yahoo, Google, AltaVista, …
Aplicaciones de las Tecnologías de la Lengua3. Recuperación de información Objetivo: Hacer preguntas libres Recuperar los documentos precisos
Procesos: a) Representación de los textos que se quieren recuperar Indexación de documentos (EI) Identificar los términos que describen el contenido
b) Representación de la consulta Descripción de lo que se busca ? explicitar el contenido
c) Comparación de las representaciones o recuperación de documentos
d) Evaluación de los documentos y retroalimentación de la búsqueda
Aplicaciones de las Tecnologías de la Lengua4. Sistemas de pregunta-respuesta (P-R) Un sistema de P-R parte de una consulta expresada en lenguaje natural
No devuelve un documento relevante (es decir, que contenga la respuesta) sinó la propia respuesta
Si los sistemas de RI convencionales utilizan técnicas básicamente estadísticas, ? los sistemas de P-R utilizan técnicas de PLN
Aparece en las competiciones del TREC a partir del TREC-8 (1999)
Aplicaciones de las Tecnologías de la Lengua5. ¿Qué es la TA? Problemas Ambigüedad del lenguaje: “atracar”
Conocimiento del mundo:
Es demasiado extenso para poderlo introducir en un programa Es demasiado complejo para poderlo formalizar.
Calidad de la traducción depende de: Grado de proximidad entre lenguas
Tipo de conocimiento: información léxica, morfológica, sintáctica.
Tipo de texto que tiene que traducir. La TA se ocupa del diseño, la implementación, la evaluación y el uso de programas informáticos para traducir textos de un idioma a otro.
Página anterior | Volver al principio del trabajo | Página siguiente |