Cómo hacer análisis de redes con los comentarios de Twitter usando NodeXL

El programa software NodeXL es una aplicación complementaria al EXCEL que tiene una función de estudiar las redes que se forman a partir de los mensajes y comentarios realizados en Twitter. Este pequeño tutorial muestra cómo construir la red a partir de los mensajes en Twitter y analizarla usando NodeXL. El objetivo es acercarnos a este programa y ver su potencial para analizar las redes de comunicación creadas a través del Twitter y el impacto de los eventos estudiados.

NodeXL Twitter Análisis de redes

Este es un tutorial sobre cómo analizar y visualizar la red de los comentarios de Twitter:

NodeXL, Twitter y análisis de redes: tutorial

0. Antes que nada. Tener cuenta de Twitter o crear una. NodeXL accede a la información de Twitter a través de vuestra cuenta. En algún momento NodeXL os pedirá permiso para usar vuestra cuenta de Twitter. Tranquilos que no hay spam ni espionaje. No hay espionaje porque  casi todo es público en Twitter .

1. Primero de todo, instalar NodeXL Template (enlace al programa)

2. Una vez instalado lo abrimos y vamos a la pestaña NodeXL y pinchamos sobre el icono de Import, donde hay varias opciones de importar datos. En este ejemplo usaremos la opción de “From Twitter Search Network” (a partir de un término usado crear la red) aunque podéis usar la que más os interese. Sobre estas otras opciones y sobre usar NodeXL para analizar redes de emails, flickr o youtube volveremos en futuras entradas.

NODEXL análisis de redes

3. Os aparecerá una subpantalla. Arriba del todo pondréis el término que queréis estudiar y por el cual se conectarán los usuarios que twitteron ese término, es decir, que escribieron esa palabra en su comentario. Por ejemplo, estudiaremos la red de usuarios que usaron el término “RCDE” (siglas del gran equipo Real Club Deportivo Espanyol). Por tanto, los nodos (vertex) serán los usuarios y los enlaces (edges) son relaciones entre ellos. Los enlaces podrán ser de 3 tipos:

Replies-to (respuesta a): es una relación dirigida basada en que el usuario responde a otro usuario que empleó el término. Son aquellos tweets que comienzan con el nombre de alguien. Por ejemplo, pedro escribió: “@juan mañana el RCDE juega con el Atlético a las 12.00 en Cornella”. Se crea un enlace dirigido de pedro a juan. Es posible que juan no haya escrito nada usando el término RCDE. Si por ejemplo, después juan escribe “@pedro ok, mañana nos vemos a las 12.00 y animar juntos al RCDE”, entonces la dirección será bidireccional, ya que se contestaron mutuamente.

Mention (mención): es una relación dirigida basada en que el usuario menciona a otro usuario, pero no al comienzo del tweet, por tanto no se considera una respuesta sino una mención . Por ejemplo iván escribió: “se puede ver el partido del RCDE por FOX @mario”. Se crea un enlace dirigido de iván a mario. No es necesario que el mencionado (en este caso mario) haya escrito el término de búsqueda, es decir, RCDE.

Tweet (tweetear): es una relación donde el usuario escribió el término pero no respondió ni mencionó a nadie. Por ejemplo luis escribió “mañana en el RCDE debuta el nuevo fichaje, ganaremos”. Son enlaces que van a uno mismo, es decir, la línea sale de luis y va luis. No hay enlace de luis a nadie ya que luis no mencionó ni contestó a nadie. Pero si puede que haya enlaces de otros usuarios a luis. Los usuarios que twitean pero no responden ni mencionan a nadie también se incluyen porque usaron el término RCDE y son muchas veces los que reciben las flechas en las relaciones de respuesta y mención.

Nos aparece la opción de elegir el número máximo de tweets a estudiar, por defecto viene 100, es decir, NodeXL recopila los últimos 100 tweets donde se mencionó el término RCDE. Podemos ampliarlo, simplemente el programa tardará más en realizar la operación.

Las otras opciones a marcar son si se añade en una columna el comentario escrito en el tweet, los hashtags (#) usados en los comentarios y atributos de los usuarios: nombre, número de seguidores, a cuántos sigue, favoritos, enlace al usuario, descripción, localidad, cuándo se unió a twitter. Por tanto, podremos estudiar el origen de los comentarios lo que nos permitirá saber si se trata de redes producidas en una misma localidad o en varias.

Después de darle al OK esperaremos un rato, estas operaciones tardan un tiempo.

4. Antes que nada graficamos el resultado, es decir, visualizamos la red de usuarios que mencionaron RCDE y conectados por responderse o mencionarse. Pichamos donde pone Refresh Graph. Los gráficos de NodeXL no son muy bonitos pero aportan mucha información. Quedan más ordenados si apretamos Layout y elegimos Haren-Koren Fast Multiscale. Podéis probar las diversas opciones de Layout (diseño) de la red. Colocándonos sobre los nodos (vertex) vemos el nombre del usuario y su comentario.

5. Hay varias hojas (sheets) en la hoja de EXCEL de NodeXL.

– Edges: es la información de las relaciones. Las primeras columnas indican los vértices o nodos, en este caso los usuarios de Twitter que mencionaron RCDE en sus comentarios. En las siguientes columnas se encuentra la información del tipo de relación (Relationship) y pinchando sobre esa columna podemos elegir ver solo las relaciones de respuesta, mención o todas. Si queremos estudiar un evento a través del uso de un término, como en este caso con la palabra RCDE realmente es conveniente dejar todas las relaciones, ya que no hay gran diferencia entre respuesta y mención.

– Vertices: en esta hoja de Excel se encuentran los atributos (características) de todos los usuarios. Nombre, enlace a la imagen, número de seguidores, número de seguidos, número de favoritos, localidad, cuándo se unió a Twitter, si escribió el término, y finalmente su red egocéntrica. Pinchando sobre las diversas columnas arriba podemos elegir opciones y eliminar usuarios en función de las localidades, fechas, etc. Cada vez que cambiamos algo actualizamos el gráfico “Refresh graph”.

– Groups: aparece vacía de inicio. Para calcular subgrupos o comunidades internas debemos ir a la opción Groups y escoger unas de las diversas opciones que nos ofrece el programa.

  • Agrupar en función de algún atributo del usuario (Group by vertex attribute), por ejemplo, en función de la localidad.
  • Agrupar por componentes (máximo subgrafo donde todos los nodos están conectados directa o indirectamente)
  • Agrupar por alguno de los algoritmos de detección de comunidades (Groups by cluster). Recomendado agrupar por Newman-Girvan que identifica grupos densos internamente en función del indicador de betweenness.

Una vez calculados los subgrupos o comunidades internas podemos colapsarlos (Groups > Collapse by groups) , así ver por ejemplo, la relación entre localidades o entre los subgrupos identificados. Actualizando el gráfico (Refresh graph) vamos viendo los diferentes análisis. Los nodos (vertex) serán los grupos y las líneas (edges) las relaciones entre los grupos

– Overall Metrics: esta hoja también aparece vacía de inicio. Pinchando sobre Graph Metrics podremos calcular los diversos indicadores de redes: degree,  betweenness, clustering coeffcient, eigenvector… Cada indicador está explicado brevemente en la subpantalla que aparece al pincha sobre Graph Metrics.

6. En la opción de Subgraph Images podemos transformar las relaciones directas (adyacentes a un paso) a relaciones de triadas eligiendo el nivel 1,5, es decir, si el usuario A se relaciona con el usuario B y el usuario B con C, por tanto, A se relaciona con C. Esta opción es útil si queremos estudiar previsiones de transferencia de conocimiento, aunque realmente no es muy usado si lo que queremos es describir.

7. Para guardar todo lo realizado simplemente Guardar como… No olvidemos que esto es una hoja de Excel.

8. Los gráficos generados los podemos importar a Gephi para presentarlos y visualizarlos mejor

Hay muchas opciones de colorear los nodos (vértices) o agrandarlos o cambiarlos de forma en función de los atributos (características) o los indicadores de redes (grado, intermediación…). Os animo a explorar mucho las diversas opciones que ofrece NodeXL

Si estáis pensando en usar Node XL para estudiar algún evento importante y la red de comunicación producida lo mejor es estar atento al día del suceso y sus días posteriores. Sería interesante ver las red de comunicación que se producirá el día del anuncio de Paz en Colombia, el posible día de la ruptura de la Unión Europea o cuando el RCD Espanyol salga campeón (ojalá pronto). Las redes creadas a partir de Twitter no son más que relaciones de comunicación y por tanto muy oportunas para estudiar las repercusiones e impacto de los eventos.

Si tenéis ideas o sugerencias, no dudéis en contactarme

Si te gustó este artículo por favor compártelo por Facebook, Twitter, Google+ o LinkedIn

Julian Cardenas

This entry was posted in Análisis de Redes, NodeXL, Software, Twitter and tagged , , . Bookmark the permalink.

One Response to Cómo hacer análisis de redes con los comentarios de Twitter usando NodeXL

  1. Patricia Yuste says:

    Me ha aclarado muchos aspectos sobre la herramienta. Muchas gracias por tu aportación.

Comments are closed.