Sobreajuste de elefantes à la von Neumann (y una beca)

5/1/2024
AUTOR
Colegio de matemáticas Bourbaki

Esta es la primera edición de nuestro boletín en el 2024 y les deseamos un fantástico año a toda la comunidad del Colegio de Matemáticas Bourbaki, su interés en las matemáticas y sus aplicaciones industriales o financieras son una motivación gigantesca para construir mejores contenidos en nuestros cursos, soluciones data-driven y proyectos de divulgación.

Para comenzar el año con el pie derecho les compartimos una historia fascinante que involucra al célebre físico Enrico Fermi y al genial científico John von Neumann, de la cual podríamos aprender o practicar nuestra comprensión del sobreajuste.

Al finalizar el texto vamos a compartirles las bases de un ejercicio muy divertido el cual le proponemos a los científicos de datos o interesados en estos temas. Quien lo resuelva exitosamente recibirá una beca del 100% para tomar cualquiera de nuestros cursos durante el 2024.

Una visita a Enrico Fermi

Enrico Fermi fue in físico italiano quien para algunos es considerado uno de los grandes científicos del siglo pasado, célebre por sus cualidades tanto experimentales como teóricas. En el lado experimental realizó importantes mediciones de la dispersión entre mesones y protones y Freeman Dyson otro gran físico era un joven profesor en Cornell encargado de dirigir a un grupo de estudiantes de doctorado.

En un artículo que les recomendamos mucho titulado A meeting with Enrico Fermi y publicado en Nature cuenta la historia de una conversación que tuvo con Fermi en la que le mostró algunos modelos matemáticos que habían construido él y sus estudiantes los cuales ajustaban sorprendentemente bien a las observaciones empíricas de Fermi.

Un científico de datos puede ya imaginarse cuál sería el problema, tenemos un dataset al que llamaremos S(Fermi) y un modelo matemático al que llamaremos F(Dyson), el cual ha sido entrenado con S(Fermi) y al evaluar el error en el entrenamiento, comete un error muy pequeño.

Overfitting según John von Neumann

Desafortunadamente para Dyson y su equipo, Fermi no estaba sorprendido por estos resultados y de hecho consideraba que el proyecto en general podría no ser viable pues es sencillo sobreajustar el conjunto de sus experimentos.

Dyson cuenta que Fermi le preguntó cuál es el número de parámetros libres de sus modelos, a lo que Dyson contestó: 4. En un principio a todos nos podrían parecer pocos, pensemos que un dataset con imágenes tiene miles de coordenadas, haciendo la combinatoria, una red neuronal con pocas capas tendrá millones de parámetros libres. ¡En un caso más extremo, los LLM tienen billones de parámetros libres!

Después de eso, Fermi contestó lo siguiente:

Recuerdo que mi amigo Johnny von Neumann solía decir: con cuatro parámetros puedo aproximar un elefante, y con cinco puedo hacer que mueva la trompa.

De acuerdo a von Neumann, los modelos con 4 parámetros libres son tan expresivos que podrían sobreajustar prácticamente cualquier problema (aunque no necesariamente tenga nada que ver con un elefante), de tal manera que la silueta de un elefante resulte ser el modelo propuesto.

El sobreajuste es uno de los grandes enemigos de los científicos de datos, se puede diagnosticar calculando el error de aproximación tanto en un conjunto de entrenamiento como un conjunto de prueba; una de las posibles causas es el uso de una gran cantidad de parámetros

El elefante de von Neumann

Aunque he encontrado algunos resultados prometedores, no he visto una implementación completa en la que se demuestre la afirmación de von Neumann. Por ejemplo en el artículo titulado Drawing an elephant with four complex parameters se prueba cómo es posible utilizar un modelo matemático (en este caso series de Fourier) para aproximar la figura de un elefante utilizando 10 parámetros libres o cinco parámetros en los números complejos.

Es importante notar que el experimento que se describe en este artículo no termina de demostrar la afirmación de von Neumann con respecto al sobreajuste en términos de la ciencia de datos pues no propone un dataset que al entrenar a un modelo proponga la silueta de ese elefante.

Una beca del Colegio de Matemáticas Bourbaki

Utilizando los artículos que les hemos mencionado y cualquier otra referencia que juzguen adecuada, proponemos a la comunidad de científicos de datos el siguiente ejercicio.

  1. Construir un dataset sintético supervisado con por lo menos 1,000 registros, una variable explicativa y exactamente dos variables dependientes.
  2. Proponer un método de entrenamiento y modelo matemático (redes neuronales, funciones kernel, regresión gaussiana, etc.) que al entrenarse en el dataset propuesto dibuje en dos coordenadas la silueta parecida a la de un elefante. Es posible parametrizar estar curva como dos funciones de una coordenada horizontal y otra vertical.
  3. Pueden utilizar las coordenadas del elefante construido en el siguiente artículo. Es posible agregar cualquier tipo de ruido a las coordenadas de esta figura, hacerlo es obligatorio.

Quienes deseen compartir su solución les agradecemos que lo hagan en un Github, pueden hacerlo llegar llenando el formulario de contacto general dentro de nuestra página web. Solo deben indicar que es su solución propuesta para la beca que estamos ofreciendo.

Oferta académica