La irrazonable eficacia de la teoría de grafos para científicos de datos y quants.

4/11/2022
AUTOR
Colegio de matemáticas Bourbaki

La teoría de grafos es un área de las matemáticas que busca encontrar una representación minimalista y al mismo tiempo fiel de la estructura combinatoria de un problema. Un ejemplo sencillo para ilustrar este enunciado es el siguiente:

Gracias a los accidentes geográficos como los fiordos, la silueta de los países puede ser muy complicada -tanto es así que la línea de la costa se entiende mejor como un fractal que como una curva con longitud definida- sin embargo podríamos estar interesados solo en una representación simplificada donde la silueta no es importante sino lo son las colindancias con otros países.

No alt text provided for this image

Es decir que el mapa anterior podría abstraerse utilizando el siguiente grafo. Cada país será representado por un nodo que es uno de los puntos enumerados hasta el once. Además algunos de estos nodos tendrán una arista entre ellos dibujada con una línea, en este caso las líneas representan las colindancias. Por ejemplo sí existe una línea entre el nodo 3 que representa a Francia y el nodo 5 que representa a Suiza sin embargo no existe una arista entre Francia y Portugal (nodo 1).

No alt text provided for this image

En esta edición de nuestro boletín Bourbakisme vamos a exponer tres ejemplos en los que la teoría de grafos demuestra una mejora sobre técnicas tradicionales:

  • Clusterización de trayectorías
  • Asset Management
  • Desdoblamiento de proteínas

The Unreasonable Effectiveness of...

Antes de comenzar es importante notar que el nombre del artículo "La irrazonable eficacia de la teoría de grafos en ciencia de datos y finanzas" está inspirado en un célebre artículo del físico y matemático húngaro Eugene Paul Wigner quien expone con numerosos ejemplos lo sorprendente que es que algunos fenómenos físicos puedan ser modelados con ecuaciones considerablemente sencillas para el nivel de dificultad del fenómeno. El título del artículo es The Unreasonable Effectiveness of Mathematics in the Natural Sciences y lo recomendamos ampliamente.

De la estructura a la combinatoria

No alt text provided for this image

Es un consenso que la teoría de grafos nació con el trabajo del matemático suizo Leonhard Euler quien resolvió el famoso problema de los siete puentes en la ciudad de Königsberg. Un dibujo de estos puentes se encuentra en la portada de este artículo y el problema consiste en lo siguiente:

¿Es posible caminar por la ciudad de Königsberg y atravesar sus siete puentes una y solo una vez?

Tal y como lo mencionamos en la introducción, la teoría de grafos busca resolver un problema combinatorio que abstraiga algún otro en el que se involucre la topología, la geometría o incluso el análisis. En el caso de los puentes de Königsberg por ejemplo, las distancias entre los trayectos o incluso la localización de los puentes son irrelevantes para el problema.

Los Científicos de Datos y Quants saben muy bien que la representación correcta de los datos no siempre pasa por agregar todas las características posibles sino aquellas que no le agregan ruido al problema, la teoría de grafos es experta en este acercamiento.

Asset Allocation

Uno de los problemas más importantes en finanzas cuantitativas es el manejo de portafolios financieros, gracias a su trabajo sobre este tema el economista Harry Markowitz recibió el premio Nobel hace algunos años. Para resolver este problema estudió la familia de covarianzas entre los activos con el objetivo de maximizar retornos fijando ciertas volatilidades.

No alt text provided for this image

La teoría de grafos resulta verdaderamente útil en este problema pues nos permite representar a cada activo como un nodo y a las aristas como covarianzas entre ellos. El algoritmo de Hierarchical Risk Parity utiliza un algoritm de clusterización para este grafo, clusterizar activos podría no ser fácil pues la información que tenemos sobre ellos son sus series de tiempo. Este algoritmo de HRP permite resolver los problemas de optimización asociados a la llamada Markowitz Curse.

Para conocer más detalles sobre este algoritmo los invitamos a nuestro curso Aplicaciones Financieras de ML & AI.

Clusterización de trayectorias

No alt text provided for this image

Así como la clusterización de series de tiempo podría ser un problema complicado, imaginemos que nuestros datos incluyen trayectorias por ejemplo que describen el traslado de mercancías. Es posible construir un grafo entre estas trayectorias que abstraiga su estructura de cercanías. El algoritmo Spectral Clustering utiliza resultados de álgebra lineal sobre estos grafos para clusetrizar efectivamente estas trayectorias.

Desdoblamiento de proteínas

No alt text provided for this image

En el año de 2020 investigadores de DeepMind entrenaron redes neuronales profundas cuyas arquitecturas utilizan grafos para predecir la estructura de proteínas. Este modelo lleva el nombre de AlphaFold y es considerado uno de los más poderosos pues sus resultados para la predicción de estas estructuras han revolucionado el área. Sin el uso de grafos sería imposible estructurar los datos que conocemos sobre las proteínas y seguramente estos algoritmos no encontrarían los patrones adecuados.

¿Dónde aprender más?

Si está interesados en conocer más sobre las redes neuronales profundas y sus aplicaciones en la industria, el Colegio de Matemáticas Bourbaki ofrece dos cursos que podrían ser de su interés: