Visualización de la evolución de una red social generada por weblogs

Enviado por Juan Julián Merelo; Fernando Tricas García; Beatriz Prieto

ABSTRACT

Los weblogs son sitios web creados usando sistemas de gestión de contenidos, de fácil utilización. Esto hace que sean dinámicos, y como pueden ser editados por una o varias personas, sus enlaces tienden a reflejar las relaciones sociales entre ellas. El estudio de estas redes sociales permite descubrir nuevas estructuras sociales, así como su proyección al futuro. En este artículo proponemos utilizar mapas autoorganizativos para visualizar la red social de un conjunto de weblogs alojado en un mismo sitio, Blogalia, y su evolución a lo largo de diferentes periodos.

Palabras clave: cibersociedad contenidos grupos de discusión hipertexto/hipermedia interactividad

I. INTRODUCCIÓN

Los weblogs están adquiriendo cada vez mayor importancia convirtiéndose en un recurso alternativo de información. Cualquier persona desde cualquier parte del mundo puede contar sus experiencias personales y lo que está viendo en ese mismo instante a través de estos weblogs. En todo el mundo hay millones, y según Perseus (http://www.perseus.com/blogsurvey/thebloggingiceberg.html), se han creado 4.12 millones de blogs sólo a través de Blog-City, BlogSpot, Diaryland, LiveJournal, Pitas, TypePad, Weblogger and Xanga. En España el crecimiento de los blogs en el último año ha sido espectacular. Según el blogómetro, alojado en Blogalia (http://blogometro.blogalia.com), que visita diariamente miles de bitácoras españolas y genera un listado con las noticias más enlazadas, el número de bitácoras de su lista es de alrededor de 26000 en octubre de 2004, conteniendo varios cientos de miles de enlaces.

Una red social creada en torno a un weblog está formada por los autores o editores de las weblogs, la gente que envía comentarios a las historias, y silenciosos pero constantes lectores que pueden o no tener su propio weblog. un weblog puede no tener importancia por sí misma, sin embargo no se puede despreciar su relevancia como parte de una red social (Newman, 2000). Las redes sociales son un tipo de redes complejas (Albert&Barabási, 2002), en las que los nodos son usualmente entidades sociales (personas, grupos de personas), y los enlaces representan las relaciones entre ellos. Usualmente las redes sociales tienen una estructura interna, así que los weblogs se pueden ver como componentes de un conjunto de comunidades, cada uno con sus propios ídolos, axiomas, enemigos y jerarquías. Las comunidades que se crean no están bien definidas, ya que un weblog en concreto puede pertenecer a varias comunidades a la vez, aunque la mayoría de los weblogs (como por ejemplo los weblogs de la comunidad hispano parlante (Merelo et al., 2003)) están conectados entre ellos mediante un conjunto finito de enlaces.

El interés en el estudio de las redes sociales se debe a su importancia dentro de la gestión del conocimiento. La gestión del conocimiento (Alvarez Martínez, 2003) consiste en la creación, almacenamiento y comunicación de conocimiento por medio de comunidades de personas y organizaciones que tienen diferentes niveles de experiencia pero que comparten intereses y necesidades similares. Dado que las redes sociales permiten crear, almacenar y compartir conocimientos, es evidente la importancia que tiene la identificación de comunidades dentro de la gestión del conocimiento, y por tanto la identificación de comunidades dentro de los weblogs como caso particular. Los weblogs constituyen una herramienta para el aprendizaje colaborativo ya que hay una red social que comparte conocimientos y adquiere otros nuevos, proceso que se ha denominado construcción social del conocimiento (Cobos et al., 2002).

En muchos casos las comunidades son multilingües; dos weblogs fuertemente relacionadas, por ejemplo escritas por el mismo autor, pero en distintos idiomas (por ejemplo, español y catalán ó español e inglés) no estarán relacionados si sólo se tiene en cuenta su contenido. En principio, se podrían usar los meta-contenidos con protocolos como Friend of a Friend (Amigo de un Amigo FOAF, información disponible en http://www.foaf-project.org), como arcos de la red, pero esto no está muy extendido, y representa sencillamente una relación binaria (eres FOAF o no), mientras que los enlaces tienen cierta calidad cuantitativa (enlazar varias veces es distinto a enlazar sólo una vez).

En este trabajo, se han escogido los enlaces en vez de el contenido ya que son fácilmente analizables a partir del documento fuente; esta elección permite una representación de cada blog con pocas dimensiones, que se realizará mediante un vector con tantos componentes como blogs haya en el grupo de estudio. Esto es posible sólo si el número de sitios relevantes es menor que el vocabulario necesario para representar los mismos sitios en un modelo de espacio vectorial. Esto también es unívoco: un enlace identifica claramente un origen (el weblog donde se ha encontrado) y un destino (la URL). Los enlaces representan una relación real entre los blogs que unen, lo que implica que, al menos, uno ha leído al otro, lo que demuestra un tipo de relación de comunidad.

Las redes sociales se crean leyendo o escribiendo en un blog o comentando otros. Es cierto que puede haber otros miembros en la comunidad que no estén cubiertos con este método (por ejemplo, lectores leales o gente que hace comentarios para participar); también, un miembro de la comunidad podría enlazar con otro por medio de un blog que no pertenezca al conjunto de blogs bajo estudio (Blogalia, en este caso); sin embargo, no intentamos decir la última palabra sobre la estructura de las comunidades en la blogosfera (como usualmente se denomina a todos los weblogs). Nuestra intención es esbozar un método para identificar comunidades considerando los hiperenlaces como indicadores de una relación entre miembros de una misma comunidad.

El contenido (distancia en el espacio vectorial) o los enlaces (número de enlaces, o existencia o no de enlaces) se usan para crear un gráfico del conjunto de sitios bajo estudio; consecuentemente, una comunidad se puede definir con alguna medida que distinga unos sitios de otros. Hay varias estructuras posibles que se pueden considerar comunidades: cliques, o conjuntos de sitios que enlazan entre ellos, bipartite cliques, conjuntos de sitios que enlazan todos a un conjunto de sitios diferente (Caldarelli, 2002), k-cores o facciones, conjuntos de sitios conectados al menos a otros k sitios del grupo, o núcleos bipartitos, que incluyen tanto al que conecta como a los sitios conectados.

La mayoría de estas estructuras se pueden calcular y visualizar con programas como el Pajek (1) o UCINET (2) , pero requieren varios parámetros iniciales como el número k de enlaces o el número de núcleos en los que se quiere dividir el conjunto original. Todas las definiciones anteriores son válidas y se pueden usar en varios casos. Sin embargo, algunas de ellas son restrictivas en el sentido de que sólo pueden tener en cuenta relaciones binarias, y no el peso de los enlaces (número de veces que se han utilizado) o la dirección. En nuestro caso, la dirección es importante: usualmente, algunos blogs que han sido "apuntados" pueden no enterarse de ello (3) . Un problema adicional es que la mayoría de los conceptos definidos anteriormente no crean una imagen visual clara de la comunidad que describen.

II. ESTADO DEL ARTE

Hay una gran variedad de herramientas para visualizar redes, en la Tabla 1 se muestran algunas de ellas. En este artículo se ha escogido un mapa auto-organizativo (Self-Organizing Map, SOM) porque es un algoritmo que da lugar a una clasificación no supervisada y permite visualizar las proyecciones de un espacio multidimensional en un mapa bidimensional resaltando las relaciones ocultas entre los conjuntos de datos. Para ello hemos utilizado MATLAB.

III. MAPAS AUTO-ORGANIZATIVOS DE KOHONEN

Kohonen propuso originalmente su mapa auto-organizativo (Kohonen, 1990), basándose en el trabajo previo realizado por von der Malsburg (1973), como un modelo para auto-organizar los dominios visuales del cerebro. El SOM de Kohonen está formado por un conjunto de vectores n-dimensionales, dispuestos en dos dimensiones; por ejemplo, en la Figura 1a se representa un SOM hexagonal, y en la Figura 1b, un SOM rectangular, ambos formados por 16 x 9 neuronas. Una vecindad de tamaño n de un vector se define como el conjunto de vectores del SOM cuyo índice difiere en menos de n. El SOM de Kohonen, como muchos otros métodos heurísticos, tiene que ser entrenado con el conjunto de datos que se van a representar. El proceso de entrenamiento consta de los siguientes pasos:

Se escoge un nuevo vector del conjunto de entrenamiento (conjunto de datos que se quiere modelar) aleatoriamente.
Se obtiene el vector más cercano en el SOM, que de denomina ganador.
Todos los vectores en la vecindad del ganador se actualizan de forma que queden más cerca (un factor alfa) del vector de entrada.
Se actualizan el tamaño de la vecindad y alfa.
Después de un número predeterminado de iteraciones se detiene el proceso.

La auto-organización en el SOM surge porque sólo las vecindades, no todo el mapa, se actualizan cada vez que llega un nuevo vector, y porque el proceso de aprendizaje se hace de forma no supervisada. Esto es lo que caracteriza al SOM de otros algoritmos de clasificación como k-means (Kanungo et al., 200), pero, en este caso, las clases también se ordenan topográficamente, de forma que los vectores que están más cerca en el espacio original n-dimensional se proyectan en vectores que están más cercanos en SOM bidimensional. Las principales aplicaciones de los mapas auto-organizativos son:

Visualización: la proyección de un espacio multi-dimensional en un mapa bidimensional destaca las relaciones ocultas entre los datos (Bock, 1996).
Identificación de clase: al contrario que otros algoritmos como el k-means, cada clase está representada por varios vectores.
Interpolación o función de modelado: no es especialmente adecuado para este fin, pero si cada vector de entrenamiento v tiene un valor asignado f(v), estos valores se pueden proyectar en el SOM, y los valores desconocidos se deducen a partir de estos. Esto es especialmente útil si f(v) es realmente un vector, o si puede faltar información en el conjunto de entrada (Unneberg et al., 2001).
Clasificación: si el conjunto original de datos se ordena en varias clases, cada vector del mapa se puede considerar con una clase y ser usado por tanto para clasificar. Incluso si no es tan eficiente clasificando como otros algoritmos de redes neuronales, el hecho de que pueda manejar valores ausentes, hace que sea más útil en estos casos. La calibración se puede llevar a cabo de varias formas (utilizando el criterio Bayesiano, por ejemplo), o con aprendizaje supervisado adicional utilizando algoritmos como el LVQ (Learning Vector Quantization) (Kohonen, 1995) para mejorar sus prestaciones.
Cuantificación de vectores: como el mapa es un modelo de un conjunto de datos, sus miembros se pueden utilizar para representar este conjunto de datos, y cada vector puede ser cuantizado asignándole su representante más cercano el mapa.

Hay muchos paquetes software que implementan el SOM, como el SOM Toolbox para Matlab, o el paquete creado por el propio equipo de Kohonen: el SOM Toolbox para Matlab 5 (disponible en http://www.cis.hut.fi/projects/somtoolbox/). Este paquete ofrece una serie de funciones que permiten hacer un preprocesamiento de los datos, crear, inicializar y entrenar el SOM, visualizar de distintas formas los resultados, así como, otra serie de funciones auxiliares (como etiquetar datos, obtener la matriz de distancias, etc) y de clasificación y clustering. Todos los resultados de este artículo se han obtenido y representado con este paquete.

Previamente, el SOM se ha usado por los autores para visualización de la comunidad de la que estamos tratando ahora, pero de forma estática [21,22], teniendo en cuenta todos los enlaces generados a lo largo del tiempo.

IV. EVOLUCIÓN DE LAS COMUNIDADES DE WEBLOGS

Los datos utilizados en este trabajo son los weblogs alojados por Blogalia (http://www.blogalia.com). Blogalia contiene alrededor de 200 blogs, de los cuales sólo 162 tienen o reciben enlaces de otros blogs. Estos 162 blogs son los que se han utilizado en este estudio. En concreto, se han utilizado las historias (excluding information in page templates, or dynamic news-feeds, for instance) publicadas en Blogalia desde Septiembre de 2003. Hay alrededor de 11000 historias que contienen unos 17000 enlaces, de los cuales, a penas una cuarta parte son enlaces a otros miembros de la comunidad. Este conjunto de enlaces es el que se ha utilizado como base de este trabajo. Cada weblog se ha representado con un conjunto de enlaces a otros miembros de Blogalia, con lo que hay blogs y páginas web que no se tienen en cuenta.

Como consecuencia de esta decisión, no se han tenido en cuenta otros weblogs, lo que implica que algunos sitios más cercanos a algunas bitácoras alojadas en Blogalia que muchos de los habitantes del sitio no han sido tenidos en cuenta; sin embargo, en este artículo, pretendemos descubrir comunidades dentro de Blogalia, y no todas las comunidades que incluyen webs alojadas en Blogalia.

Cada blog se representa con un vector cuyas componentes son el número de veces que ese blog enlaza con el resto de blogs. Por ejemplo, si el blog http://fernand0.blogalia.com/ correspondiente al vector i-ésimo enlaza 7 veces con el blog http://atalaya.blogalia.com/correspondiente al vector j-ésimo, el elemento correspondiente (i, j) dentro del vector valdrá 7. Se han considerado de forma separada los enlaces entrantes y salientes, y 5 grupos de datos, cada uno de los cuales corresponde a los enlaces de cada blog consultados cada 4 meses (cuatrimestralmente). Es decir, el primer grupo corresponde a los enlaces de los blogs de los cuatro primeros meses, el segundo a los enlaces de esos mismos blogs acumulando 4 meses adicionales (en total 8 meses), y así sucesivamente. Para poder distinguir visualmente los datos correspondientes a cada periodo se han etiquetado anteponiendo al nombre del blog 1, 2, 3, 4 o 5, según el periodo al que correspondan los datos. Por ejemplo, 1atalaya corresponde al vector atalaya del periodo 1, 2atalaya se refiere al vector atalaya del periodo 2, y así sucesivamente.

En una primera parte del experimento se han utilizado todos los datos juntos (los cinco grupos, previamente normalizados) para entrenar el SOM. Una vez obtenido el mapa de salida del SOM, se han proyectado sobre él cada grupo de datos de forma independiente, para poder ver como van evolucionando. En las Figuras 2 a 6 se muestran las proyecciones de cada grupo de datos (en la Figura 2 el periodo 1, en la Figura 3 el periodo 2, etc.) sobre el SOM. En ellas, cada hexágono negro tiene un tamaño proporcional al número de veces que cada unidad del mapa ha sido el BMU (Best-Matching Unit) del conjunto de datos.

Puede observarse que inicialmente la mayoría de los blogs están en la parte superior central (el hexágono negro mayor). Todos los blogs de este hexágono tienen sus componentes a 0, es decir, no tienen ningún enlace entrante. A medida que transcurre el tiempo va disminuyendo el número de blogs que caen en ese hexágono ya que van teniendo más enlaces. Es decir, los blogs se van expandiendo por el mapa a medida que va transcurriendo el tiempo ya que van recibiendo más enlaces.

También se puede ver como, a medida que transcurre el tiempo, los blogs se van desplazando de la parte superior central hacia la parte inferior y hacia los extremos, principalmente al izquierdo.

Para ver este efecto con más detalle se han escogido algunos blogs y se ha visto su evolución a lo largo de los distintos periodos. Se han elegido aquellos blogs con más de 100 enlaces entrantes en el periodo 5. En la tabla 1 se muestra el número de enlaces de cada blog en cada periodo de tiempo.

En la Figura 7 se muestra la evolución de los blogs más enlazados. Éstos se van desplazando hacia abajo y hacia los extremos.

En la Tabla 2 se han escogido los blogs con más enlaces salientes. También se han escogido aquellos con más de 100 enlaces salientes en el periodo 5.

En la Figura 7 se han proyectado sobre el mapa alguno de los vectores escogidos en la Tabla 2. En todos los casos se produce un desplazamiento de la zona superior del mapa a la zona inferior y hacia los extremos. También se puede ver que se van formando grupos, es decir, hay ciertos blogs que terminan en el mismo hexágono, aunque la transición de cada uno por el mapa sea distinta. Así, tenemos que atalaya, fbenedetti, jkaranka y eledhwen van al mismo hexágono, mientras javarm, rvr y verbascum forman otro grupo y por último pawley y jaio-la-espia formarían otro.

La Tabla 3 contiene los blogs con más enlaces salientes. También se han escogido en este caso aquellos con más de 100 enlaces salientes en el quinto periodo.

En la Figura 8 se muestran las proyecciones en el mapa de algunos vectores de la Tabla 3. Se puede observar que se produce un movimiento desde la parte superior del mapa hacia la parte inferior, y más en concreto hacia los extremos. También se puede apreciar la formación de grupos, es decir, algunos blogs terminan en el mismo hexágono aunque el camino seguido hasta él sea diferente. Por ejemplo, atalaya, fbenedetti, jkaranka and eledhwen forman un grupo.

V. CONCLUSIÓN

Se ha propuesto un procedimiento para identificar comunidades dentro de la www considerando los hiperenlaces como indicadores de una relación entre miembros de una misma comunidad. Este trabajo trata sobre weblogs, páginas web que contienen enlaces a otros sitios web que tratan sobre un determinado tema o que se basan en algún otro criterio. Los weblogs generan relaciones entre sus usuarios dando lugar a redes sociales. Estudiar la evolución de estas redes sociales nos permite descubrir estructuras sociales, así como su proyección de futuro.

Para identificar y visualizar las comunidades que surgen se han utilizado los mapas auto-organizativos (SOM) como una herramienta potente que genera una clasificación no supervisada y permite la visualización de las proyecciones de un espacio multi-dimensional en un mapa bidimensional, destacando las relaciones ocultas entre los miembros del conjunto de datos. Para ello se ha utilizado el paquete MATLAB SOM Toolbox.

El conjunto de trabajo de sitios webs está formado por 162 weblogs (de 200) alojados en Blogalia (http://www.blogalia.com/). En este estudio se han utilizado todas las historias (excluyendo, por tanto, información en las plantillas de la página, o información de otras páginas incluida automáticamente) publicadas en Blogalia hasta Septiembre de 2003; hay alrededor de 11.000, y contienen sobre 17.000 enlaces.

Mostramos empíricamente como el método propuesto es válido para identificar comunidades y analizar su evolución a lo largo del tiempo. En concreto, se puede observar claramente las trayectorias y la expansión de los blogs a través de SOM a medida que transcurre el tiempo y van recibiendo más enlaces. Está claro que los blogs se clasifican o forman comunidades a pesar de seguir distintas trayectorias.

RECONOCIMIENTOS

Este artículo ha sido apoyado en parte por el proyecto TIC2003-09481-C04 del Ministerio español de Educación, Ciencia y Deporte. También queremos expresar nuestro agradecimiento a Víctor Ruiz, por su apoyo durante su elaboración, y su continuo trabajo sostenido la comunidad de Blogalia.

BIBLIOGRAFÍA

M. Newman, "Small worlds: The structure of social networks," condmat/0001118. [Online].Available: citeseer.nj.nec.com/514903.html
J. J. Merelo, F. Tricas, and V. Ruiz, "Measuring the spanish blogosphere," in Proceedings of Towards New Media Paradigms (COST A20 Conference), Pamplona, Spain, 27-28 June, 2003, available from http://geneura.ugr.es/˜jmerelo/atalaya/newmedia/.
R. Albert and A. Barabasi, "Statistical mechanics of complex networks," 11 Reviews of Modern Physics, vol. 74, no. 47, 2002, cond-mat. [Online]. Available: citeseer.nj.nec.com/499527.html
Rafael Alvarez Martínez, "Introducción a la realización de eventos académicos en línea", Simposio Internacional de Computación en Educación Aguascalientes, México, Octubre 2003. http://www.somece.org.mx/simposio2003/talleres/ram/gestion.html
H. H. Bock, "Simultaneous visualization and classification methods as an alternative to Kohonen’s neural networks," in Classification and Multivariate Graphics: Models, Software and Applications, ser. Weierstrass-Institut f¨ur Angewandte Analysis und Stochastik, H.-J. Mucha and H.-H. Bock, Eds., Berlin, 1996, no. Report No. 10, pp. 15–23.
Ruth Cobos, Jose A. Esquivel y Xavier Alamán, Herramientas informáticas para la gestión del conocimiento. Un estudio de la situación actual. Novática nº 155, Enero-Febrero, 2002: pp. 20-26.
G. Caldarelli, "Introduction to complex networks," Proceedings of the 7th Conference on Statistical and Computational Physics Granada, 2002, online at Proceedings of the 7th Conference on Statistical and Computational Physics Granada (2002).
E. Dumbill, "Finding friends with xml and rdf," Available from http://www-106.ibm.com/developerworks/xml/library/x-foaf.html , Jun3 2002.
T. Kanungo, D. M. Mount, N. S. Netanyahu, C. D. Piatko, R. Silverman, and A. Y. Wu, "The analysis of a simple k -means clustering algorithm," in Symposium on Computational Geometry, 2000, pp. 100–109. [Online]. Available: citeseer.nj.nec.com/kanungo00analysis.html
T. Kohonen, "Learning vector quantization," in The Handbook of Brain Theory and Neural Networks. Cambridge, Massachusetts: The MIT Press, 1995, pp. 537–540.
T. Kohonen, "The self-organizing map," Procs. IEEE, vol. 78, p. 1464 ff., 1990.
C. von der Malsburg, "Self-organization of orientation sensitive cells in the striate cortex," Kybernetik, no. 14, pp. 85–100, 1973.
J. J. Merelo-Guervós, B. Prieto, A. Prieto, G. Romero, P. Castillo-Valdivieso, and F. Tricas, "Clustering web-based communities using self-organizing maps," March 2004, accepted, IADIS conference on Web Based Communities, available from http://geneura.ugr.es/~jmerelo/papers/72.pdf.
J.-J. Merelo-Guervos, B. Prieto, F. Rateb, and F. Tricas, "Mapping weblog communities," December 2003, preprint Available from http://arxiv.org/abs/cs/0312047.
P. B. D. Unneberg, J. J. Merelo, P. Chacón, and F. Morán, "SOMCD: a method for evaluating protein secondary structure from UV circular spectra," Proteins, vol. 42, no. 4, pp. 460–470, 2001, draft available from http://geneura.ugr.es/pub/papers/somcd.ps.gz. Demo disponible en http://somcd.geneura.org.

NOTAS

[1] – Pajek es un programa para Windows que se puede descargar gratuitamente en http://vlado.fmf.uni-lj.si/pub/networks/pajek/.

[2] – UCINET es un programa para Windows que se puede descargar en http://www.analytictech.com/

[3] – Es muy probable que los autores de los blogs sean conscientes de los enlaces entrantes, y hay herramientas, como http://technorati.com/ o registros de enlaces entrantes (referrer logs) que permiten al autor controlarlos.

Este artículo es obra original de Juan Julián Merelo; Fernando Tricas García; Beatriz Prieto y su publicación inicial procede del II Congreso Online del Observatorio para la CiberSociedad: http://www.cibersociedad.net/congres2004/index_es.html"

Juan Julián Merelo; Fernando Tricas García; Beatriz Prieto

El contenido del presente trabajo está gobernado por la siguiente Licencia de Creative Commons: ver http://creativecommons.org/licenses/by-nc/2.0