De Zitarrosa al NLP y al Chat GPT

En el mes de Marzo de 2023, Alfredo Zitarrosa, quien supo ser el músico más relevante del Uruguay, estaría cumpliendo 87 años. Por eso desde Quanam nos pareció oportuno escribir este blog para honrar su recuerdo, utilizando las herramientas tecnológicas que utilizamos día a día, para analizar 34 años después de su muerte, su extensa y sentida obra.

En esta ocasión nos vamos a limitar a analizar su obra desde la parte lírica, es decir que intentaremos analizar cuál era el contenido de las letras de sus canciones. Como es común a la hora de hacer estos análisis, necesitamos una fuente de donde obtener los datos. En esta ocasión obtuvimos las letras de Zitarrosa a través de esta página, la cual recopila letras de diversos artistas. En cuanto a los años de publicación de cada canción, es más difícil pues no hay ninguna web más allá de Google que recopile esta información, así que hubo que hacer un registro manual de los mismos para cada una de las canciones encontradas.

Tras hacer esto, obtenemos la respetable cantidad de 202 canciones, escritas o interpretadas por Zitarrosa entre 1966 y 1989. Hay que hacer algunas aclaraciones, como que estas son las fechas correspondientes a sus respectivas publicaciones. Así como también es importante señalar la existencia de obras póstumas, con fecha de publicación de hasta una década después de su muerte. Finalmente advertir que hay obras las cuales no se pueden datar precisamente pues no se pudo encontrar un registro asociado.

Dicho esto, podemos entonces ver la siguiente gráfica la cual nos muestra en números la carrera musical de Zitarrosa, desde sus inicios como cantor allá por la década del 60, hasta su muerte, seguida por la publicación de las obras póstumas.

De la gráfica podemos ver como durante su periodo de actividad fue un artista muy prolífico, contabilizando un total de 161 canciones grabadas hasta su fallecimiento en 1989. (Si contamos además la que no sabemos su fecha exacta, tenemos un total de 182)

Por otro lado, junto a las letras de la canciones también obtuvimos sus títulos, en los cuales Alfredo delata muchas veces el ritmo de la misma (milonga, chamarrita, zamba, etc.), otras veces plasma en ellos el sentimiento de la canción, mientras que en otras simplemente nombra a personas, lugares o animales. Podemos entonces crear a partir de los títulos una nube de palabras, donde aparezcan las palabras más relevantes y frecuentes de sus títulos.

Podemos seguir el mismo proceso para las letras de sus canciones, nuevamente haciendo una correcta limpieza del texto para evitar que aparezcan palabras muy frecuentes pero poco significativas (las cuales llamamos stopwords), como puede ser algunos pronombres, artículos o conjunciones. Obteniendo entonces la siguiente nube de palabras que resume toda la obra de ZItarrosa.

En esta nube de palabras podemos ver reflejado lo que era el canto de Alfredo, al menos en cuanto a cuáles eran los tópicos más abordados en sus canciones.

Otra técnica que podemos utilizar para analizar su lírica, que también es usada en el procesamiento del lenguaje natural (NLP), es la del Entity Recognition, la cual nos permite detectar cuales son las entidades nombradas en un texto, en este caso en las canciones. Al hacer la detección de entidades sobre todo el repertorio, podemos obtener la siguiente representación que nos muestra a quien hacía referencia Alfredo en sus canciones.

Nuevamente podemos ver una nube de palabras con diversos elementos, vemos distintas locaciones o países que nombraba Zitarrosa en sus canciones, así como personajes icónicos de su obra o figuras de su época.

Finalmente podemos intentar ver cómo avanzó la temática de su obra a lo largo de los años, la cual fue claramente interpelada por el momento histórico que le tocó vivir, la cual lo llevó a vivir distintas experiencias, las cuales se pueden ver plasmadas en las letras que escribía o decidía interpretar. Para este análisis vamos a hacer distintas nubes de palabras para las distintas décadas en las que desarrolló su carrera (sesentas, setentas y ochentas).

Podemos usar entonces esta representación para hacernos una idea de cómo fue cambiando la temática de sus letras a medida que transcurría su vida como cantor. Algunas cosas a destacar son que las siluetas de los países utilizadas para cada década no son aleatorias, sino que se corresponden a algunos de los países donde residió durante esa década, y en los cuales desarrolló parte de su obra. Otro comentario importante, ahora desde una parte técnica, es que para hacer estas nubes de palabras, no alcanzó con filtrar por fecha y realizar las correspondientes nubes de palabras, si no que además hubo que aplicar una técnica muy utilizada en el NLP conocida como TF-IDF la cual nos permite analizar cuales son las palabras más relevantes de cada grupo (en nuestro caso de cada década) y que las caracterizan por sobre el resto. De esta forma evitamos en gran parte incluir palabras redundantes que si bien sean características de la obra de Zitarrosa, no lo sean de la década en particular, que es lo que nos conviene para este análisis donde buscamos caracterizar cada época.

Como conclusión de la parte técnica, podemos decir que todas las técnicas utilizadas, todas comprendidas dentro del marco del denominado NLP, fueron útiles a su manera para obtener distinto tipo de información de nuestros documentos (canciones). Este análisis también nos sirve para ver que en cualquier lugar que haya texto, sea en el volumen que sea y en el contexto que sea, podemos utilizar estas herramientas para extraer información valiosa y usarla para interpretar el conjunto en su totalidad, o segmentado según nos convenga. Para cerrar, notemos que si bien muchas veces estas técnicas son usadas para poder sacar conclusiones sobre grandes cantidades de texto; en esta ocasión preferimos obviar esta parte y dejarlo como tarea del lector; puesto que en este blog nuestro objeto de estudio es la obra de Alfredo Zitarrosa, un artista que interpeló a cientos de miles de personas de distintas maneras, y por lo tanto preferimos que el lector le de su propia interpretación.

Bonus Track: Como ya está en boca de todos, el chat GPT (evolución del modelo generativo GPT-3), una de las herramientas más potentes creadas en el contexto del NLP, está revolucionando el mundo. Por eso no quisimos dejar pasar la oportunidad para pedirle a este chat que nos genere una letra de una canción, escrita como si fuera Zitarrosa, en la que hable de su país en la actualidad. ¿Lo hará bien? ¿Parecerá algo escrito por Don Alfredo? ¿Escribiría eso si siguiera vivo? ¿Podría tener alguna utilidad “revivirlo” de esta manera? ¿Sería siquiera ético? Todas esas preguntas las dejamos, nuevamente, a interpretación del lector.

Prompt: Escribime una canción de Alfredo Zitarrosa que hable del Uruguay en 2023

Letra de “Amanecer en el Uruguay” por Alfredo Zitarrosa:

En este amanecer del Uruguay
que llegó a ser lo que soñamos
se siente la brisa del progreso
que nos trae nuevos horizontes.

Las huellas del pasado
se han borrado con el tiempo
y en cada rincón del país
se respira la libertad.

La igualdad es la consigna
y el trabajo nuestra fe
cada uno tiene su lugar
y juntos podemos crecer.

La educación es la llave
que abre todas las puertas
y en cada niño y joven
se siembra el futuro de la patria.

En el Uruguay del presente
se escucha el canto de la paz
y en cada corazón se siente
el orgullo de ser uruguayo.

Por eso brindemos juntos
por el mañana que vendrá
porque en este Uruguay de 2023
el futuro es nuestra verdad.

Ivan Abatte
Consultor Data & Analytics