Las redes del mundial
Los goleadores las inflaron, nosotros las analizamos
Generalmente el análisis de redes sociales (Social Network Analysis o SNA) se utiliza para estudiar estructura y organización de redes. Se suele aplicar mucho para analizar redes delictivas pero en este caso lo vamos a aplicar para analizar datos del mundial de fútbol.
Lo que se analizará es cómo están vinculados los jugadores que participaron, sus selecciones y los clubes por los que jugaron ¿Estarán todas las selecciones “conectadas” a través de los clubes en los que juegan sus jugadores? ¿Qué club uruguayo aportó más jugadores para el mundial? ¿Cuáles es el jugador más influyente de la selección?
Cuando se analizan redes es útil identificar su forma o topología. Básicamente estos son los tipos más comunes:
El primer paso para realizar el análisis es definir los nodos y las relaciones entre los mismos. Los nodos pueden ser personas, computadoras, teléfonos, etc. Del mismo modo los vínculos/enlaces entre los nodos podrían ser tanto relaciones como interacciones: llamadas telefónicas, parentescos, transferencias bancarias.
En el caso del mundial los nodos son Jugadores, Cuadros de Fútbol y Selecciones. Los vínculos indican que un jugador juega (o jugó) en un cuadro o selección.
Para este primer paso es necesario contar con información sobre los nodos y sobre sus relaciones. Muchas veces tenemos esta información al alcance de la mano, por ejemplo, se podría extraer de redes sociales (Twitter, Facebook, etc.) para revelar “amigos” en común entre dos personas. Para realizar la extracción existen Apis (en el mejor de los casos) pero cuando no las hay se puede echar mano a scrapers (robots que simulan la navegación de un humano con una página web para poder extraer información de ella de manera automática). Sugiero Data Miner, una herramienta que se integra al Google Chrome y me ha dado muy buenos resultados.
Una investigación interesante podría ser ver para dos personas cuáles son las personas que siguen en Twitter para ver si hay coincidencias. En este caso se extrajo todas las personas a las que sigue Luis Suárez y las que sigue Edinson Cavani:
Para obtener la información necesaria para el análisis mundialista se extrajo de la página de la FIFA todas las selecciones que participaron del mundial y sus jugadores. De Wikipedia y de TransferMarkt se extrajo para cada jugador los cuadros en los que jugaron.
En el siguiente grafo están representados todos los jugadores “atados” a su selección y a su cuadro actual:
Si bien es complicada la maraña, se puede identificar que están todos atados con todos, no hay “islas”, pero se ven algunos grupos que forman parte de la periferia. Estos subgrupos son las selecciones de Islandia, Perú, Panamá e Irán. Uno a priori podría haber pensado que Panamá por ejemplo podría haber quedado descolgada pero no porque por ejemplo ABDIEL ARROYO juega en la Liga Deportiva Alajuelense donde juega PATRICK PEMBERTON de la selección de Costa Rica y en Costa Rica juega KEYLOR NAVAS. O por ejemplo Irán, pero en Irán juega MILAD MOHAMMADI que juega en el Ajmat Grozni con ANDREY SEMENOV que juega en la selección Rusa y en Rusia juega DENIS CHERYSHEV que juega en el Villarreal y ahí juega también CARLOS BACCA de la selección de Colombia.
Para empezar a entender un poco mejor se puede tener en cuenta medidas de centralidad.
1. La centralidad de grado (degree) es simplemente el número de enlaces que posee un nodo, algo así como “la cantidad de amigos”, “cantidad de llamadas telefónicas que realizó”, “cantidad de transferencias bancarias que hizo”, etc.
2. Cercanía es la suma (o el promedio) de las distancias más cortas desde un nodo hacia todos los demás de la red.
3. La intermediación (betweenness) cuantifica el número de veces que un nodo actúa como puente a lo largo del camino más corto entre otros dos nodos.
4. La centralidad de vector propio (eigenvector) mide la influencia de un nodo en una red. Los nodos que poseen un alto valor de esta medida están conectados a muchos nodos que a su vez están bien conectados; por lo tanto, son buenos candidatos para difundir información, divulgar rumores o enfermedades, etc. El cálculo del PageRank de Google, utilizado para medir la relevancia de páginas web en Internet, es una variante de esta medida.
En la siguiente tabla están las medidas para las selecciones:
También puede ser interesante ver cuáles son las dos entidades que están más separadas en la red, en otras palabras, cuál de todos los caminos más cortos entre todos los nodos es el más largo. En este caso son:
1) Teniendo en cuenta todos los jugadores que participaron del mundial y todos los equipos por los que jugaron: Racing de Casablanca (Marruecos) y Ocean Boys FC (Nigeria) – 16 saltos:
Racing de Casablanca, AYOUB EL KAABI, Renaissance de Berkane, AHMED TAGNAOUTI, Wydad Casablanca, YASSINE BOUNOU, Club Atlético de Madrid, FILIPE LUIS, Chelsea Football Club, VICTOR MOSES, Stoke City Football Club, OGHENEKARO ETEBO, Warri Wolves Football Club, DANIEL AKPEYI, Heartland Football Club, IKECHUKWU EZENWA, Ocean Boys FC.
2) Teniendo en cuenta todos los jugadores que participaron del mundial, la selección a la que defendieron y el cuadro actual: Sangju Sangmu Football Club y Sport Boys Association – 16 Saltos
Sangju Sangmu Football Club, KIM MINWOO, REPÚBLICA DE COREA, SON HEUNGMIN, Tottenham Hotspur Football Club, CHRISTIAN ERIKSEN, DINAMARCA, MICHAEL KROHN-DEHLI, Real Club Deportivo de La Coruña, CELSO BORGES, COSTA RICA, PATRICK PEMBERTON, Liga Deportiva Alajuelense, ABDIEL ARROYO, PANAMÁ, LUIS TEJADA, Sport Boys Association.
Otro estudio interesante podría ser mediante las medidas de centralidad armar la selección ideal incluyendo al arquero, 3 defensas, 5 mediocampistas y 2 delanteros que sean los más influyentes de la red (que tengan más eigenvector) es decir que están conectados a selecciones y que han jugado en cuadros que a su vez también están bien conectados.
La selección sería la siguiente:
Para la vista de grafo se simplificó quitando a las selecciones e incluyendo a los equipos en los que habían jugado al menos dos.
La pregunta que nos hacemos es cómo logró “colarse” Coates. Simplemente porque está vinculado a varias entidades que a su vez están muy bien vinculadas (juegan o jugaron jugadores que también están bien vinculados y así sucesivamente):
Una forma de quitarle complejidad a la red es agrupar y fusionar individuos en clústeres. Hay algoritmos automáticos de clustering que son muy útiles en criminología para identificar “pandillas”. Para el ejemplo mundialista vamos a hacer de cuenta que las pandillas son las selecciones, los vínculos entre selecciones significan que ambas selecciones tienen futbolistas que actualmente juegan juntos en algún equipo, el número del vínculo es esa cantidad de conexiones.
La densidad de relacionamiento (between-position link density) que tiene en cuenta la cantidad efectiva de vínculos entre jugadores de una y otra selección en relación a todos los posibles vínculos que podrían haber se utilizó para remover enlaces de baja densidad como también las selecciones que no tenían gran volumen con ninguna otra.
Luego nos podemos centrar a investigar el funcionamiento interno de cada pandilla. Por ejemplo, estudiemos a Uruguay. Podemos iniciar el análisis en los jugadores de la selección expandiéndolos para ver qué cuadros comparten:
Vemos que la selección está toda unida, eso no sucede por ejemplo en selecciones como Francia donde se producen dos “islas”:
Si hallamos las medidas de centralidad para los jugadores de la selección vemos lo siguiente:
Cristian “el Cebolla” Rodríguez es el jugador más influyente de la selección. Es el más cercano a todos, es por el que pasan la mayor cantidad de caminos entre todo el resto de los futbolistas, también es el que compartió mayor cantidad de clubes distintos con otros uruguayos y a su vez es el segundo mejor vinculado.
Uno de los caminos más largos entre jugadores de la selección es entre Martín Silva y Naithan Nandez (6 saltos) ya que una de las formas de vincularlos es mediante el siguiente camino: MARTIN SILVA-Defensor Sporting Club-MARTIN CACERES-Juventus de Turín-RODRIGO BENTANCUR-Club Atlético Boca Juniors-NAHITAN NANDEZ.
Viendo el gráfico uno se podría confundir ya que podría pensar que Lucas Torreira y Carlos Sánchez están más separados pero es una trampa ya que en el gráfico están sólo los jugadores de la selección y los cuadros por los que haya pasado más de uno. Sin embargo, teniendo en cuenta a todos los actores el Pato podría llegar al pacman en 4 saltos de la siguiente manera: CARLOS SANCHEZ-Club Atlético River Plate-JUAN QUINTERO-Delfino Pescara 1936-LUCAS TORREIRA.
Un análisis similar se puede hacer pero partiendo desde los cuadros uruguayos para ver qué jugadores aportaron al mundial:
Vemos que la Viola es el que más jugadores aportó (todos para la selección uruguaya) pero vemos también jugadores de otras selecciones (Panamá, Colombia, Costa Rica e incluso Brasil) han pasado por cuadros uruguayos.
Es interesante ver que no están todos unidos, que hay 6 islas. De todas formas, se pueden tender “puentes” entre estas islas sumando más cuadros de fútbol y jugadores, intentando que estos puentes sean lo más cortos posible. Por ejemplo, es sabido que se puede unir la isla de donde está Peñarol, Danubio y River con la isla donde están Nacional, Cerro, Wanderers y Central Español ya que el Faraón juega en el Aleti y el Cebolla también pasó por ese club. Uniendo todas las islas el grafo quedaría así:
Estas son algunas de las cosas interesantes que se pueden hacer trabajando con redes.
Consultor en Business Analytics & Information Management