El STM en números

¿Alguna vez te preguntaste cual ómnibus pasa más seguido?

¿Cuál va más lleno en promedio?

¿Cuál hace más paradas?

Presentación: En este blog vamos a responder todas esas preguntas y mucho más, mostrando cómo podemos utilizar un registro histórico de datos de ventas (en este caso boletos), para obtener conclusiones interesantes, entender la dinámica actual del negocio y ver cuáles son los principales problemas a tratar. Todo esto mediante la generación de tablas, gráficas y animaciones que resulten tanto explicativas como atractivas a la vista, para facilitar la comprensión de los millones de datos a tratar.

Datos disponibles: Vamos a utilizar en este caso, los datos STM de boletos vendidos, los cuales son públicos y se publican mensualmente acá. Debido a la masividad de estos (se venden unos 20 millones de boletos aproximadamente por mes, lo que significa que en promedio de cada dos montevideanos, uno viaja en el transporte público diariamente) vamos a trabajar con los datos de un único mes, en este caso Julio de este año, 2022. Lo cual nos priva de hacer algunos análisis interesantes, por ejemplo: ¿Cambia el tipo de demanda por estación? ¿Se venden menos boletos cuando terminan las clases?, etc. Sin embargo, es necesario para poder hacer un análisis que no requiera mucho tiempo de cómputo ni disponibilidad de memoria.

Ahora, hablando de los datos en sí, contamos con una tabla que nos informa de todos los boletos vendidos durante el mes, incluyendo la fecha y hora en que el pasajero lo obtuvo, en que parada fue, que línea, el tipo de pasajero, si es un trasbordo, etc.

A continuación, veremos cómo podemos usar toda esta información, para convertir 23 millones de datos numéricos en una serie de gráficas y otros artefactos, para resumir esa y dar interpretabilidad a la misma.

Dos aclaraciones antes de empezar; en primer lugar, es que vamos a utilizar el término “boletos vendidos” para todo tipo de boleto que se expida (incluidos transbordos o boletos gratuitos); y en segundo, todos los análisis realizados van a ser en base a los datos del mes de Julio, aunque no lo mencionemos.

Dicho esto, es momento de empezar a responder las preguntas que planteamos al principio.

Líneas más populares: Empecemos develando la primera gran pregunta, ¿Cuál es la línea más utilizada por los montevideanos? ¿Cuántas personas utilizan la misma? Para responder esto veamos la siguiente gráfica la cual nos muestra las 10 líneas más utilizadas, junto a la cantidad de boletos que se vendieron en el mes de análisis, Julio.

Como vemos, la línea más utilizada es la “103”, con un total 790 mil boletos vendidos, una cantidad notoria más abajo, aparece la línea “G”, con la cantidad de 630 mil boletos, y cerrando el podio, la “185” con 570 mil.

Lo primero que podemos deducir es que el “103” es el ómnibus más utilizado, con una considerable diferencia respecto a sus inmediatos competidores, que están mucho más parejos entre sí. Notar también la gran magnitud de estos números, significando que casi 2 millones de uruguayos se suben mensualmente a alguna de estas 3 líneas.

Solo por curiosidad también podemos ver lo opuesto, es decir las líneas menos utilizadas.

Como vemos, las menos populares son en su mayoría, líneas locales, como la “L19”, o líneas experimentales, como la “135”.

Otra cosa curiosa que podemos fijarnos es si este top 10 es igual todos los días de la semana, es decir ¿Habrá líneas que se utilicen más los fines de semana? ¿Hay ómnibus que la gente solo utiliza para ir a trabajar? Para intentar responder estas preguntas, podemos rearmar la primera gráfica, pero ahora diferenciando por día de la semana.

Lo que podemos ver a primera vista, es que en general las líneas más utilizadas son las mismas todos los días de la semana, salvo el último puesto, donde entre semana aparecen el “307” o el “110”, mientras que sábado y domingo aparece el “137” o el “405”. Uno podría intentar interpretar estos resultados en base a sus recorridos. Tal vez el “405” aparece los fines de semana pues tiene como destino el Parque Rodo, por ejemplo.

Ya nos fijamos que prácticamente el top 10 global se mantiene día a día, ahora nos podemos fijar si se mantiene a lo largo del día, hora a hora. Para eso veamos como avanza la demanda de estos ómnibus a lo largo del día en la siguiente gráfica.

Como vemos, en general todas las líneas del top tienen el mismo comportamiento, muy pocos viajes en la madrugada (se reducen la cantidad de vehículos), luego empieza a subir progresivamente hasta alcanzar un máximo a las 7 (la gente va a trabajar), luego baja un poco y vuelve a alcanzar un máximo al mediodía (las zonas céntricas están en movimiento), luego se mantiene alta la demanda hasta alcanzar el máximo del día a las 5 de la tarde (la gente vuelve del trabajo), para luego empezar a decaer a lo largo de la tarde hasta llegar la noche.

El “103” mantiene la amplia ventaja durante todo el día, mientras que otras como la línea “G” son superadas al caer la noche. A partir de esto podríamos deducir que existen líneas más populares en ciertos momentos del día que otras, lo cual refleja que hay zonas de Montevideo más concurridas según el momento del día, lo que genera estas variaciones.

A partir de estas estadísticas, podemos hacernos una pregunta interesante que es: ¿Qué tan distribuido está el uso del sistema de transporte en las distintas líneas? En estos casos es interesante mencionar la ley de Pareto, la cual es una ley empírica que nos dice que el 80% de las ventas proviene de la venta del 20% de los productos disponibles. Aplicadas a nuestra pregunta, la ley diría que el 80% de los boletos los venden un 20% de las líneas, mientras que el otro 80% de líneas solo aporta al 20% de las ventas.

Para responder la pregunta podemos utilizar un gráfico de Pareto, el cual nos, tomando un porcentaje de las líneas, que cantidad del porcentaje total de ventas mensuales representan.

De la gráfica vemos cómo el 80% de las ventas se cubren con 35% de las líneas disponibles. Lo cual es más equitativo de lo que plantea la ley de Pareto. Aunque también se puede decir, que, con la mitad de las líneas, se puede cubrir el 92% de la demanda total. O también que el 25% de la demanda proviene de las 10 líneas top que analizamos previamente.

Sin embargo, para poder sacar conclusiones directas de este tipo de análisis, deberíamos suponer que la población de Montevideo está uniformemente distribuida por la capital, lo cual es rotundamente falso, pues existen dentro de Montevideo zonas muy céntricas con alta densidad de población y de servicios, y otras zonas con mucha menos densidad poblacional y aisladas. Debido a esto, van a ser necesarias líneas que brinden servicio a estas pocas (relativamente) personas de la periferia, generando el efecto que observamos en la gráfica.

Paradas más concurridas: De la misma forma que nos preguntamos cuáles fueron las líneas más utilizadas, también podemos pensar cuáles fueron las paradas más utilizadas durante el mes de análisis ¿Formarán parte del recorrido de las líneas más utilizadas? ¿Estarán ubicadas en las zonas céntricas de Montevideo? ¿Hay alguna destacablemente más concurrida que las otras, como pasaba con las líneas? Todas esas preguntas y más podemos responder analizando los datos de en qué paradas fueron vendidos los boletos.

Nuevamente veamos la gráfica para sacar las conclusiones.

Podemos ver, que, con una ventaja considerable sobre sus competidores, la parada más utilizada fue la de Agraciada y Freire, en la zona del viaducto, uno de los puntos neurálgicos de Montevideo. Por esta parada pasa, por ejemplo, la línea “G”, que era la segunda línea más utilizada del STM. En segundo lugar, aparece la parada de Portones, destino de la línea “G” también. Luego aparece nuevamente la de Agraciada y Freire, pero ahora en la dirección contraria, hacia Belvedere. Después aparecen algunas destacables, como la del shopping de Punta Carretas, la del Montevideo shopping o la terminal del Cerro, en las cuales podemos interpretar fácilmente porque aparecen en el top.

Más allá de que resulta curioso, este análisis puede llegar a ser muy útil para entender cuáles son las zonas de Montevideo con más movimiento, entender en que zonas se concentran los servicios, las oficinas, etc.  También nos resulta útil en este análisis el hecho de que los datos contienen la fecha en que se expidió el boleto, por lo que también podemos ver como varían estas zonas a lo largo del día, comprender si Montevideo se comporta durante otra forma durante la noche, si la gente va migrando de zonas a lo largo de la jornada laboral, etc. Si bien no vamos a llegar a realizar este análisis en profundidad en el blog, si utilizaremos el dato de la hora, para explorar algunos casos particulares, o como hicimos con las horas de mayor demanda de las líneas top.

Horas y días más movidos: Aprovechando el dato de fecha y hora de los boletos emitidos, podemos intentar ver cuáles son los días de mayor movimiento en la capital del país, o en qué horas la gente utiliza más el transporte público.

Para eso veamos la siguiente gráfica, la cual nos muestra la cantidad total de boletos vendidos en el mes, en función de la hora y para cada día de la semana; e intentemos interpretarla.

Como vemos, el comportamiento por hora es más o menos el mismo de lunes a viernes (el mismo que analizamos cuando el de las líneas más populares), y la cantidad de boletos emitidos parece ser muy parecida en estos días, salvo los lunes, donde vemos una cantidad notoriamente menor ¿A qué se debe esto, los lunes somos mucho más inactivos? Para responder esto hay que recordar que estamos analizando tan solo un mes, que tuvo 4 lunes, y uno de ellos, el 18 de Julio, fue feriado no laborable, por lo tanto, es esperable que ese día se hayan vendido muy pocos boletos, en comparación a los otros lunes. Seguramente si analizáramos otro mes, veríamos como los lunes tendrían un comportamiento mucho más acorde al resto de días laborales.

Por otro lado, lo que sí es verdad es que sábados y domingos hay mucha menos demanda que los otros días. Lo cual tiene sentido pues la mayoría de las personas trabaja de lunes a viernes, aunque mucha gente trabaja también los sábados, de ahí que el sábado se eleve notoriamente sobre el domingo, el cual es definitivamente el día más inactivo, porque es cuando la gran mayoría de la gente aprovecha para quedarse en casa.

Otra cosa que podemos ver es como de noche, los días con más actividad son los viernes y sábados, mientras que, de madrugada, los sábados y domingo. Esto seguramente se puede interpretar como la vida nocturna de Montevideo, que se da principalmente los fines de semana.

Las empresas más grandes: Otra cosa breve pero interesante que podemos ver, es cómo se distribuyen la venta de boletos las distintas compañías (CUTCSA, COETC, UCOT, COMESA). Para eso veamos la siguiente gráfica de barras.

Podemos observar claramente la superioridad de CUTCSA, que acapara cerca del 64% del mercado. Por otro lado, el resto de las compañías, entre las que se reparten el restante 36% de la demanda, tienen una participación similar.

Distribución de usuarios por categorías: Cuando se otorgan las tarjetas STM, existen diversas categorías de las mismas, por ejemplo, para estudiantes, jubilados, usuarios corrientes, etc. En la siguiente tabla podemos ver cómo se distribuyen estas categorías.

Como vemos, la mayoría de los boletos son expedidos a usuarios corrientes, siendo estos un poco más de la mitad del consumo total. Luego le siguen los estudiantes, con un porcentaje importante también importante. Después aparece la categoría “NO CORRESPONDE”, en la cual están aquellos usuarios que no utilizan la tarjeta y abonan en efectivo. Luego aparecen los jubilados y demás categorías.

Es importante notar que en estos casos donde hay valores mucho más pequeños que otros, conviene utilizar tablas en vez de gráficas, para poder apreciar correctamente la magnitud de estos valores.

Una cosa que nos podríamos preguntar es ¿Estos porcentajes son los mismos a lo largo del día? Para eso veamos ahora si la siguiente gráfica.

Donde podemos ver cómo la representación va cambiando a lo largo del día, por ejemplo, los usuarios corrientes son siempre mayoría, pero sobre todo en la madrugada, donde a su vez los estudiantes alcanzan su mínima representación en el día. También podemos ver otras cosas curiosas, como que los vinculados al transporte son casi nulos a lo largo del día salvo a las 3 de la mañana, donde tienen un porcentaje considerable.

Se puede hacer exactamente el mismo análisis para los días de la semana ¿Será que la representación de estudiantes es mayor de lunes a viernes? ¿Y la de los jubilados? Para eso fijémonos en la siguiente gráfica.

Podemos ver entonces que, pese a nuestras expectativas, no hay cambios significativos a lo largo de los días, manteniéndose siempre las mismas proporciones, lo cual también es curioso.

Si bien venimos analizando estas 9 categorías, las mismas se dividen en distintas subcategorías, por ejemplo, estudiantes gratuitos o no, jubilados clase A o clase B, etc. Aunque también hay categorías como usuarios corrientes, las cuales no se subdividen. Considerado esto, veamos una gráfica de cómo se distribuyen estos subgrupos dentro su categoría (obviamente solo veremos las clases que tienen subdivisiones).

De acá se podrían hacer varios análisis, pero para eso habría que entender que significa cada categoría, y que criterios usan para segmentar a los usuarios; lo cual no viene al caso en este análisis. Vamos a quedarnos con cosas más triviales, como que los estudiantes que viajan gratuitamente son aproximadamente la mitad del total de estudiantes, o que la mayoría de los usuarios que figuran como “VINCULADOS AL TRANSPORTE”, son los mismos trabajadores del transporte.

Finalmente hagamos una última pregunta basada en las categorías, que ya las asociamos con los días, con la hora, y no lo hicimos con las líneas ¿Será que existen líneas donde viajas más pasajeros de determinada categoría que en otras? Por ejemplo, ¿Cuáles son las líneas en que mayor porcentaje de estudiantes hay? ¿Y en las que menos?

Para responder eso veamos la siguiente tabla, donde a la izquierda vemos los 10 ómnibus con mayor porcentaje de boletos emitidos a estudiantes, y a la derecha los 10 con menos. Notar que para realizar la tabla se obviaron las líneas locales con pocos usuarios para obtener así resultados más robustos y significativos.

En primer lugar, veamos que, la línea con mayor representación estudiantil es la 117. Uno podría intentar interpretar este resultado en base al recorrido de la línea. Por ejemplo, sabemos que la misma pasa por varias facultades, como la de derecho, ingeniería o economía, pasa cerca de la de arquitectura o psicología, y también pasa por algunos liceos grandes como el IAVA o el Zorrilla.

Notemos que el “117” alcanza casi el 30% de estudiantes, mientras que la representación global habíamos visto que era el 22%. Luego le siguen otras líneas con un porcentaje similar, como la “140” o la “407”.

Por otra parte, la línea con menos representación es la 133, con solo un 16%, una cantidad similar por debajo del promedio, de lo que estaba el “117” por arriba.

Este tipo de análisis, realizado en mayor profundidad y teniendo en cuenta la hora y día, nos ayudaría a entender cómo se mueven los estudiantes por Montevideo. Con esto podríamos deducir que tan descentralizados están los centros educativos en la ciudad. Incluso nos podría dar indicios de en qué zona construir nuevos, para facilitar el acceso a la misma.

Uso de los trasbordos: Una posibilidad que ofrece el STM es el de los trasbordos, lo cual consiste en concatenar varios viajes de distintas líneas por el precio de un único boleto, siempre que estos viajes se hagan dentro de un cierto tiempo.

Lo más usual es que la gente que utiliza los trasbordos sea en dos viajes, sin embargo, no hay limitación en esto y otras personas lo usan más veces. Esto nos lleva a algunas preguntas, por ejemplo ¿Qué tan comunes son los trasbordos? ¿Cuál fue el trasbordo con más viajes?

Para responder este dato vamos a utilizar uno de los datos que tenemos disponibles, que es el número de trasbordo que se registra con cada boleto emitido. A partir de esto podemos crear la siguiente gráfica, donde vemos la cantidad de trasbordos por número de viajes.

Notemos primero que la gráfica está en escala logarítmica, una forma de representar gráficamente valores muy grandes y muy pequeños a la vez. De cualquier manera, también podemos armar una tabla añadiendo los porcentajes.

De estas dos figuras podemos ver como la mayoría de la gente no realiza transbordos, y de los que sí lo hacen, la grandísima mayoría lo hace solo una vez. Vemos que son muy pocos los que hacen varios trasbordos, sin embargo ¡hay algunas personas que llegan a hacer hasta más de 10! ¿Pero cuánto fue el récord de trasbordos en el mes de Julio? Pues el récord está en… ¡24 trasbordos! Incluso nos podemos fijar de que quien realizó esto fue un usuario corriente, con un boleto de 2 horas. Seguramente esta gente que realiza varios trasbordos, son los vendedores ambulantes o aquellos que suben a cantar y/o a tocar; que sacan un boleto de 2 horas y van de ómnibus en ómnibus durante lo que dure el boleto.

Los que más rápido pasan, y los que menos:  Todo el mundo sintió alguna vez que el ómnibus que está esperando demora mucho en pasar, y que debería hacerlo más frecuentes, o que cierto otro pasa muy seguido para la poca gente que lleva.

Es por eso que en esta sección vamos a intentar analizar algunas cuestiones relacionadas con   la frecuencia con que pasan las diferentes líneas (algo que no habíamos visto hasta ahora), y que tanta gente trasladan en comparación.

Para responder estas preguntas, pero también generar otras, veamos la siguiente gráfica. En la misma representamos las 10 líneas que más veces pasaron en el mes, junto a la cantidad total de pasajeros que tuvieron.

En primer lugar, notemos que, más allá de que algunas líneas vuelven a aparecer, no es el mismo top 10 que vimos cuando analizamos boletos vendidos. Vemos también que el ómnibus que más rápido pasa es el “181”, seguido del “183” y el “103”, que era el que más gente usaba. Luego podemos ver también que la relación buses-pasajeros no es la misma para todas las líneas. Por ejemplo, se podría decir que en promedio los “181” van más vacíos que los “103”, pues su relación pasajeros-buses es menor. Para ver está relación con mayor detenimiento veamos el siguiente gráfico, donde se muestran las líneas con mayor y menos proporción pasajeros-buses.

Vemos, por ejemplo, que la línea que en promedio va más llena es la “G”, con aproximadamente 60 pasajeros por vehículo (no significa que vayan 60 a la vez, si no que en promedio se suben 60 personas a lo largo del viaje). También vemos que las líneas que van más vacías son las líneas locales, con unos 10 pasajeros por vehículo en promedio. Este dato sobre las líneas locales está bastante relacionado a lo que discutimos cuando hablamos de la relación de Pareto, que estaba relacionado con la centralidad de Montevideo y la distribución de servicios e infraestructura.

Otra cosa que podemos hacer, es mezclar esta información con la hora, para ver cómo cambia la cantidad de buses en circulación a lo largo del día ¿Qué tan bien se correlacionará con la demanda? Para eso veamos la gráfica que nos muestra justamente la relación pasajeros-buses a lo largo del día.

En las barras rojas que representan los pasajeros por hora, vemos la misma tendencia que ya analizamos previamente. En las azules, que son los buses en circulación por hora, vemos un comportamiento similar al de los pasajeros, pero con algunas diferencias. La principal diferencia es que, si bien la cantidad de demanda disminuye en el período de 8am a 12am, la circulación se mantiene constante en ese mismo período.

En general podríamos decir que la circulación crece bruscamente a partir de las 5am, para llegar a un nivel constante a eso de las 10am, donde se mantiene hasta las 7pm donde empieza a decaer gradualmente.

Algunas conclusiones que podríamos sacar, son que, por ejemplo, como la circulación es constante de 10am a 6pm, pero no así la cantidad de gente utilizando el transporte público, los ómnibus van a tender a ir más llenos sobre la tarde que sobre la mañana.

¿Significa esto que se debería reducir la frecuencia a horas como las 10am, para subirla a otras como las 6pm? Esto no necesariamente así pues influyen muchos más factores que no estamos teniendo en cuenta al hacer este análisis. Hay que tener también en cuenta el comportamiento de cada línea en particular, la cobertura geográfica, no dejar a nadie sin cobertura, etc.

Un análisis particular: Como venimos diciendo, se podrían hacer análisis más complejos combinando distintos análisis que hicimos. Para cerrar el blog, vamos a mostrar un análisis de una línea en particular, por ejemplo, la “199” (Punta Carretas-Cementerio Norte). Vamos a tratar de ver cómo evoluciona a lo largo del día el uso de las distintas paradas de su recorrido ¿Son siempre las mismas las paradas más usadas? ¿Hay alguna parada que solo se utilice en determinado momento del día?

Además, vamos a mostrar otra herramienta de visualización de datos que son las animaciones, la cual nos permite añadir más información, por lo general la temporal. Veamos entonces la siguiente animación la cual nos muestra cómo evoluciona el uso de las paradas a lo largo del día (solo consideramos las paradas del recorrido de ida).

En general vemos que la parada más concurrida es la de “H. Miranda”, es decir el shopping de Punta Carretas, sin embargo, vemos como no es hasta entrado el mediodía donde se consolida como tal, mientras que en la mañana no es tan usada como otras. Luego también podemos ver como la zona de origen (Punta Carretas) es siempre más concurrida que la zona destino (Cementerio Norte), lo cual tiene sentido considerando que Punta Carretas es uno de los puntos neurálgicos de Montevideo. También se ve que hay paradas que siempre son menos concurridas que sus adyacentes, o que hay otras que oscilan a lo largo del día, o algunas que tienen un comportamiento grupal, entre tantas otras cosas que podríamos ver e interpretar a partir de la animación.

Conclusiones: Como dijimos al principio, el objetivo de este análisis era responder algunas preguntas que todos nos hicimos alguna vez, además de servir como excusa para mostrar la potencialidad del análisis de datos tabulares mediante gráficas, tablas y animaciones. Más allá de eso, uno se puede ver tentado a pensar en posibles mejoras u optimizaciones del STM que se podrían hacer en base a lo visto. Sin embargo, hay que tener en cuenta que manejar un sistema del que depende la mayoría de la población de la capital del país, no es tan simple; por lo tanto, hay que ser cautelosos con las conclusiones que podamos sacar, recordando que hay miles de variables que tener en cuenta al analizar estas cosas, como comentamos en algunas ocasiones. Pero esto no significa que no se puedan usar estos análisis para hacer mejoras significativas; siempre que sean enfocados de la manera correcta, teniendo claro que es lo que se busca y no simplemente explorando los datos; se pueden llegar a resultados interesantes que resulten en una optimización del sistema.

Recordar también, que, si bien durante todo el blog nos enfocamos en los datos del STM, no hay que perder la visión más general de que este tipo de análisis puede ser realizado sobre casi cualquier conjunto de datos estructurados de esta manera. Pudiendo así no solo entender visualmente los datos, sino que también entender factores claves del sistema e incluso llegar a optimizarlo.

Ivan Abatte
Consultor Data & Analytics