Difusión estable explicada

Alfonso RuizAlfonso Ruiz
6/2/2023
AUTOR
Colegio de matemáticas Bourbaki

Alfonso Ruiz

[Les damos la bienvenida al Boletín del Colegio de Matemáticas Bourbaki el cual será una continuación de nuestro boletín anterior, para recibir los nuevos artículos les agradecemos mucho que se suscriban a esta nueva edición.]

En las últimas semanas se ha hablado mucho sobre cómo la inteligencia artificial puede generar contenido original, en particular la generación de imágenes y de textos mediante sugerencias (prompts) del usuario.

En una edición anterior hablamos sobre cómo podemos utilizar un poderoso modelo llamado ChatGPT para reducir la cantidad de tiempo que invertimos en la generación de texto o búsqueda organizada de la información. En este post hablaremos sobre cómo las técnicas de Difusión Estable combinadas con los Grandes Modelos de Lenguaje pueden resolver un problema similar esta vez relacionado con las imágenes. Quizás uno de los modelos más avanzados para estas tareas es el conocido como DALL·E 2.

Nuestro artículo está dividido en las siguiente secciones:

  1. Aplicaciones comerciales
  2. Bases de datos
  3. Modelos matemáticos
  4. Algoritmos de entrenamiento

Aplicaciones de la difusión estable

No alt text provided for this image
Los Girasoles de Vincent van Gogh y el polen

Los aspectos de un negocio que se pueden beneficiar por modelos que generen imágenes ad hoc son incontables, desde la generación para actividades de marketing hasta la presentación ejecutiva de resultados.

Para enfatizar lo útil que podrían ser estos modelos pensemos en el siguiente problema:

En el Colegio de Matemáticas Bourbaki deseamos ilustrar este post con un dibujo en el que aparezca Guillermo del Toro junto a alguna alusión a la creación artística de una IA.

La razón por la que decidimos este tema para ilustrar este artículo es porque hace unos días él afirmó en una entrevista estar en contra de la generación artística mediante modelos matemáticos, pueden revisar sus palabras en el siguiente link.

Probamos algunos prompts sin embargo no encontramos alguno lo suficientemente atractivo (¿alguna sugerencia?), por ello preferimos la ilustración de Daniela Nava quien es nuestra ilustradora de cabecera y cuyo trabajo nos encanta. Este es un ejemplo perfecto de lo complicado que puede ser generar imágenes adecuadas para un tema específico, tanto en marketing como en la enseñanza, este problema consume muchos recursos, de ahí que Stable Diffusion sea tan importante.

Bases de datos para difusión estable

Como todos los modelos modernos de inteligencia artificial, existe una dependencia enorme de las bases de datos con las que los entrenamos, en el Colegio de Matemáticas Bourbaki decimos que "somos esclavos de los datos" y algo muy similar ocurre tanto con Chat-GPT como con DALL·E 2.

Una pregunta muy importante que nos debemos hacer sobre cualquier modelo de inteligencia artificial es ¿cómo es la base de datos con la que entrenamos a este modelo? Contestar oportunamente esta pregunta es indispensable para plantear correctamente una solución basada en datos.

No alt text provided for this image
Fragmento de Cien Años de Soledad

En el caso de los modelos más exitosos de generación de imágenes basado en textos (Text-to-Image) se utilizan fundamentalmente dos estructuras de bases de datos:

  1. Textos semi-supervisados: todos los modelos exitosos de Text-to-Image requieren el uso de encajes del lenguaje natural que son entrenados con bases de datos gigantescas, incluso del tamaño de Wikipedia entero.
  2. Textos supervisados con imágenes: este es uno de los aspectos más delicados de los modelos tipo DALL·E 2, recomendamos a nuestra comunidad no olvidar que para entrenarlos necesitamos bases de datos que contienen una relación entre las imágenes y el texto. Una de las grandes ventajas de la difusión estable es que es posible comenzar con imágenes de resolución intermedia y aún así generar otras con alta resolución.

Modelos matemáticos de la difusión estable

La idea esencial detrás del éxito de los modelos de difusión estable es una poderosa idea que proviene de la termodinámica, la cual es una rama de la física que estudia a grandes rasgos los procesos de transferencia del calor a nivel macroscópico.

Un científico de datos puede pensar en la transferencia de energía como el proceso que relaciona dos registros dentro de nuestras bases de datos, de la misma forma como dos imágenes podrían ser parecidas si una de ellas contiene un filtro de Instagram mientras que la otra no.

No alt text provided for this image
Movimiento Browniano y el polen

En particular los modelos de difusión estables se relacionan con la termodinámica del no-equilibrio, para los científicos de datos la distinción entre el no-equilibrio y el equilibrio es semejante a la diferencia entre datos ordenados a través del tiempo y datos inertes. El caso más importante de este tipo de datos son las series de tiempo, por ejemplo aquellas que provienen de problemas financieros.

Existe un proceso de difusión conocido como Movimiento Browniano el cual es fundamental en la base teórica de la teoría matemática de los productos derivados financieros. En lugar de utilizar estos modelos auto-regresivos, las técnicas de difusión estable han entrenado redes neuronales con arquitecturas de atención para aproximar un proceso de markov que simula la generación de imágenes de alta resolución a partir de imágenes completamente aleatorias (ruido blanco).

Algoritmos de difusión estable

Aunque el cambio de paradigma más sustancial en los modelos de difusión estable está en la arquitectura con la que se construyen los modelos de inferencia, el entrenamiento de estos también tiene algunas variaciones interesantes.

No alt text provided for this image
Paul Langevin

Para entender matemáticamente cuál es la idea detrás del entrenamiento óptimo de estos métodos podemos referir al lector al importante trabajo de Paul Langevin el cual influyó desde su nacimiento a los modelos de difusión estable.

Oferta académica