Desarrollo de Herramientas para Automatizar la Extracción de Datos (página 2)
Enviado por Pablo Turmero
Uso de APIs Google + API:
Su API está organizada por tipo de recursos:
Personas: Es una lista de recursos de una persona. Nombre, Imagen de perfil, URL de perfil, Email Actividades: Es una nota que un usuario postea en su muro. Id, imagen, nombre, fecha publicación, contenido, Comentarios: Es una respuesta a una actividad. Id, contenido, fecha publicación.
Retos de los Crawlers Las APIs oficiales de las redes sociales presentan limitaciones. Es necesario el uso de nuevas técnicas. Los Crawlers son la solución perfecta. Permiten encontrar y descargar nueva información automáticamente.
Retos de los Crawlers Escala: Millones de páginas en internet. Contenido nuevo cada segundo. No es fácil determinar el número de páginas web en un sitio web.
Retos de los Crawlers y NodeFriends Formas de extracción: Extracción sobre una página simple HTML. La extracción sobre una página HTML que necesite autentificarse con credenciales.
La extracción de la información sobre páginas con contenido dinámico. Contienen programas scripts, que requieren ejecutarse para conocer el contenido de la página.
Retos de los Crawlers y NodeFriends NodeFriends – desarrollo UDLAP:
Se cuenta con un Crawler con las siguientes características:
Permite extraer la listas de amigos de Facebook, iniciando por un usuario semilla, detectando patrones y procesando información extraída.
Permite almacenar la información en dos archivos CSV (nodos y aristas)
Retos de los Crawlers y NodeFriends Metodología NodeFriends para extracción de la red de amigos de Facebook: Usuario semilla Paso 1: Exploración de lista de amigos. Paso 2: Extracción de la información. Paso 4: Almacenamiento de información. Paso 3: Procesamiento y clasificación de la información.
Retos de los Crawlers y NodeFriends NodeFriends: Explora y extrae la lista de amigos existentes a partir de un usuario semilla. Para la selección de la lista de amigos se declararon patrones de expresiones regulares los cuales se comparan directamente con el código HTML de cada página de amigos. Almacena la lista de amigos en archivos CSV (separados por coma).
Retos de los Crawlers y NodeFriends Tecnologías empleadas de Crawling, para implementar NodeFriends:
HtmlUnit: Librería que simula un navegador Web sin interfaz, permite manipular a un alto nivel de sitios Web http://htmlunit.sourceforge.net/
Escrita en Java. Permite el llenado y envío de datos a formularios mediante simulación de clics en hiperenlaces (autenticar). Extraer código fuente de páginas Web. Visitar cualquier página que contenga código JavaScript.
Uso de NodeFriends NodeFriends: NodeFriends es una aplicación desarrollada en Java que permite extraer la lista de amigos, a partir de una cuenta semilla. Descarga la lista de amigos de forma recursiva hasta el nivel de exploración indicado. Genera los archivos para poder analizar la red con cualquier visualizador de redes.
Uso de NodeFriends Requisitos de NodeFriends:
Tener instalada la máquina virtual de Java. Versión 8 o superior.
Su descarga es gratuita. https://java.com/es/download/
Uso de NodeFriends Ejecución de NodeFriends – WINDOWS
Descomprimir el archivo “NodeFriendsV0.1.zip” Abrir el archivo “Windows.bat”
Uso de NodeFriends Ejecución de NodeFriends – Linux
Descomprimir el archivo “NodeFriendsV0.1.zip”
Uso de NodeFriends Ejecución de NodeFriends – LInux: Abrir una consola de comandos. Introducir el comando “java –jar ” Arrastrar el archivo “NodeFriends.jar” a la ventana y presionar Enter.
Uso de NodeFriends Ejecución de NodeFriends – MacOSX:
Descomprimir el archivo “NodeFriendsV0.1.zip”
Uso de NodeFriends Ejecución de NodeFriends – Mac OS: Presionar la combinación de teclas “CMD+Espacio” e ingresar la palabra “terminal” y presionar Enter. Introducir el comando “java –jar ” Arrastrar el archivo “NodeFriends.jar” a la ventana y presionar Enter.
Uso de NodeFriends Ingresar el email de la cuenta de Facebook. Ingresa la contraseña de la cuenta de Facebook. Ingresa el nivel de exploración (1-Amigos, 2-Amigos de mis Amigos, 3-Amigos los Amigos de mis Amigos, …).
Uso de NodeFriends Obtener Datos de una cuenta personal de Facebook:
Presionar el botón «Obtener Datos» para comenzar a descargar los datos de Facebook. Esto puede tardar un poco, dependiendo el nivel de exploración seleccionado. ingresado.
Uso de NodeFriends Datos Generados: Al concluir la descarga de datos serán creados 2 archivos, uno contendrá los nodos (Amigos) y otro los enlaces (Amistades).
Archivos Generados Archivo de nodos Archivo de aristas
Visualización de resultados de NodeFriends Visualización en Gephi Para iniciar debemos abrir la herramienta, la podemos encontrar en Inicio>Todos los Programas>Gephi.
Iniciar nuevo proyecto:
Visualización de resultados de NodeFriends Importar Datos a Gephi La herramienta Gephi permite crear los nodos y las relaciones a partir de archivos parametrizados (CSV). Importar: Ir a la sección «Laboratorio de datos» en esta sección se podrán ver todos los nodos y relaciones creadas.
Visualización de resultados de NodeFriends Importar Datos a Gephi:
Importar Nodos: Seleccionar la opción «Importar hoja de cálculo», seleccionar el archivo y seleccionar tabla de nodos, presionar siguiente y luego presionar terminar.
Visualización de resultados de NodeFriends Importar Datos a Gephi:
Importar Relaciones: Seleccionar la opción «Importar hoja de cálculo», seleccionar el archivo y seleccionar tabla de aristas, presionar siguiente y luego presionar terminar.
Visualización de resultados de NodeFriends Visualizando los Datos con Gephi:
Para visualizar la red, debemos ir a la sección «Vista General», donde podremos visualizar una red, aun sin una apariencia estética.
Visualización de resultados de NodeFriends Detección de Comunidades: La detección de comunidades se realiza con el algoritmo de modularidad el cual ventana de «Estadísticas». Cambiar el color de los nodos a partir de la comunidad a la que pertenece: En la parte izquierda «Apariencia>Nodos» seleccionar el atributo de «Modularity Class» y presionar en el botón Aplicar.
Visualización de resultados de NodeFriends Detección de Comunidades en Gephi: La modularidad le dará un aspecto como el de la siguiente imagen. Cada color representa una comunidad distinta.
Visualización de resultados de NodeFriends Visualización de Grado Vector Propio El algoritmo de vector propio lo aplicamos en la sección de la derecha «Estadísticas». En la parte izquierda en la sección de Apariencia>Tamaño>Nodos>Atributo seleccionar el atributo de «Eigenvector Centrality» y presionar en el botón Aplicar.
Visualización de resultados de NodeFriends Visualización de Grado Vector Propio.
Visualizar el tamaño de los nodos dependiendo del grado de vector propio que tiene cada nodo, mostrando nodos más grandes dependiendo del grado calculado:
Visualización de resultados de NodeFriends Distribución de los Nodos:
Gephi permite aplicar algoritmos de distribución, para dar un aspecto más estético a la red y así poder analizarla mejor. Para aplicar el algoritmo de distribución solo basta ir a la sección de distribución y seleccionar el algoritmo deseado.
Visualización de resultados de NodeFriends Distribución ForceAtlas2: Es un modelo de atracción lineal y repulsión lineal con unas pocas aproximaciones. Ventana “Distribución” seleccionar Forcetlas2. Configurar su atributos «Evitar Solapamiento» y presionar ejecutar.
Visualización de resultados de NodeFriends Resultados de aplica la Distribución ForceAtlas2: Genera un grafo que puede ser analizado más fácilmente.
Visualización de resultados de NodeFriends Mostrar Etiquetas de Nodos: Ventana “Grafo”, pestaña “Etiquetas”. Habilitar la opción “Nodo”.
Visualización de resultados de NodeFriends Mostrar Etiquetas de Nodos
Visualización de resultados de NodeFriends Exportar Grafo:
Gephi permite exportar el grafo a una imagen. En el módulo de previsualización podremos configurar diferentes parámetros.
Visualización de resultados de NodeFriends Exportar Grafo
Analizando el grafo Se puede apreciar qué personas son más influyentes (Tamaño del nodo), también se puede identificar a las personas que comparten un patrón de similitud (Color del nodo).
Analizando el grafo Se puede visualizar el impacto de una persona dentro de una red, el cual posibilita la conexión con otros miembros de la red y sin él no sería posible llegar a otros nodos (personas).
Analizando el grafo Existen personas en la red que tienen una mayor capacidad para controlar la difusión de un mensaje, esto puede ser aprovechado en una campaña de marketing.
Página anterior | Volver al principio del trabajo | Página siguiente |