Descargar

Problemas de análisis de texto (página 2)

Enviado por Pablo Turmero


Partes: 1, 2
edu.red

Grafo propuesto, grafo de co-ocurrence: Vértices: todas las palabras de un corpus de entrenamiento, except palabras de paro. Una liga se crea si dos palabras aparecen juntas en un texto (al menos una vez).

Uso de medidas de centralidad para extraer palabras relevantes.

Usar un método de aprendizaje supervisado.

*Castillo, E, et al. (2015). UDLAP: Sentiment Analysis Using a Graph Based Representation. Castillo, E, et al. (2016). UDLAP at SemEval-2016 Task 4: Sentiment Quantification Using a Graph Based Representation Análisis de sentimiento y perfil de autor

edu.red

“I’m very excited #happy” Análisis de sentimiento y perfil de autor Este enfoque trabaja sobre textos que no son muy largos, porque crea ventanas de co-ocurrencia de diferentes tamaños.

edu.red

Análisis de sentimiento y perfil de autor Alrededor de 45% de exactitud usando el corpus de SemEval 2015, 2016, que es un conjunto de datos preparado para la tarea de análisis de sentimientos.

Alrededor de 80% de exactitude usando el corpus de Clef Pan 2015, que es un conjunto de datos preparado para la tarea de perfil de autor. http://alt.qcri.org/semeval2015/ http://alt.qcri.org/semeval2016/ http://pan.webis.de/clef15/pan15-web/

edu.red

Herramientas Open source Diferentes herramientas open source que se pueden usar en el problema de PLN.

La mayoría de las herramientas proporcionan un API en diferentes lenguajes de programación como: Python Java Scala C/C++ C#

edu.red

Herramientas PLN Wordnet es una gran base de datos léxica de inglés: nombres, verbos, adjetivos y adverbios. Todas las palabras en Wordet se agrupan en conjuntos de sinónimos cognitivos llamados  synsets. Synsets están ligados por medio de relaciones conceptuales-semánticas and léxica Para el Español: http://grial.uab.es/synset/synset2.php Para el Francés: http://alpage.inria.fr/~sagot/wolf-en.html

https://wordnet.princeton.edu/

edu.red

Herramientas PLN La red de Wordnet se usa para obtener sentidos específicos de las palabras y las relaciones semánticas como: Lemas. Sinónimos. Hiperónimos. Hipónimos. Similaridad semántica entre palabras.

https://wordnet.princeton.edu/

edu.red

Herramientas PLN (Gp:) http://www.nltk.org/

NLTK es una plataforma para construir programas en Python para trabajar con datos de lenguaje humano.

Proporciona interfaces fáciles de usar para más de 50 córporas y recursos lexicales como: Wordnet. SentiWordNet (sólo en inglés). Dependency Parsed Treebank. SENSEVAL 2 Corpus: Sense Tagged Text.

edu.red

Herramientas PLN (Gp:) http://www.nltk.org/

Provee una conjuntos de librerías para:

Clasificación: asignar información semántica relacionada a un document de texto.

Tokenización: proceso de romper un texto en palabras, frases o símbolos.

Stemming: proceso de reducción de palabras a su forma base (Word steam).

Tagging: el papel sintáctico de las palabras en el texto (Part of speech).

Parsing: proceso de analizar una oración tomando cada palabra y detrminando su estructura a partir de sus partes constituyentes.

edu.red

Herramientas PLN (Gp:) http://www.clips.ua.ac.be/pattern

Clips Pattern es un módulo de minería de web para el lenguaje de programación de Python.

Desarrollado en la Universidad de Lovaina, Bélgica.

Proporciona un paquete de herramientas para: Minería de datos. Procesamiento de Lenguaje Natural. Aprendizaje por computadora. Análisis de redes y visualización.

edu.red

Herramientas Grafos (Gp:) https://networkx.github.io/

NetworkX es un paquete en Python para la creación, mainpulación y estudio de la estructura, dinámica y funciones de grafos complejos y redes complejas. Es una aplicación de tipo stand-alone.

Principales características: Creación de grafos, digrafos y multigrafos. Diferentes tipos de algoritmos para calcular: Medidas de Centralirdad. Análisis de ligas/arcos (links). Predicicón de ligas.

edu.red

Igraph es una colección de herramientas para el análisis de redes con énfasis en la eficiencia, la portabilidad y la sencillez de uso. Es una herramienta de código abierto que puede programarse en R, Python y C/C++

Principales características: Creación de grafos y multigrafos. Desarrollo de aplicaciones de tipo Stand-alone Ofrece diferentes algoritmos para manipulación y análisis de grafos como: Clustering y detección de Comunidades. Conectividad Isomorfismo http://igraph.org/redirect.html Herramientas Grafos

edu.red

GraphX es un nuevo componente en Apache Spark para grafos y cómputo paralelo sobre grafos.

Es una herramienta de código abierto que puede programarse en R, Scala, Python y Java.

Usa un enfoque de tipo Map-Reduce.

Ofrece diferentes algoritmos paralelos para el cálculo de: PageRank. Propagación de etiquetas. Label propagation. Componentes fuertemente conectados.

http://spark.apache.org/graphx/ Herramientas Grafos

edu.red

Otras herramientas

edu.red

Conclusiones La comprensión total del lenguaje natural es un objetivo aún distante. Pero existen hoy en día, herramientas y sistemas útiles para resolver problemas varios problemas prácticos de PLN.

El reto consiste en encontrar la correcta adecuación entre los diferentes tipos de problemas y las herramientas disponibles para resolverlos.

Los enfoques basados en grafos para representar textos representan una alterniva interesante para etraaer la información lingüística relevante.

Usados adecuadamente, los métodos estadísiticos de PLN (… deep learning), han abierto nuevas posibilidades para el análisis y comprensión de los textos.

Partes: 1, 2
 Página anterior Volver al principio del trabajoPágina siguiente