La importancia de llamarse ChatGPT

25/1/2023
AUTOR
Colegio de matemáticas Bourbaki

Hace algunos meses se publicó un modelo matemático que interactúa a manera de conversación por medio del lenguaje natural llamado ChatGPT, esto quiere decir que uno puede escribir algún texto en inglés y el modelo responderá con un texto idealmente congruente con aquello que hayamos introducido.

Mucho se ha informado tanto en los grandes medios como en las redes sociales sobre la importancia de ChatGPT y su relevancia en distintos aspectos de nuestra sociedad, en este texto buscamos ayudar a generar una opinión mejor informada de la comunidad en hispanoamérica sobre los alcances y relevancia de este trabajo.

No alt text provided for this image

Hemos preparado un resumen de algunos de los aspectos más importantes de ChatGPT desde tres puntos de vista distintos: como modelo matemático, como Business Tool y como Inteligencia Artificial.

Acto I: ChatGPT como modelo matemático

El entrenamiento de ChatGPT está dividido en cuatro partes fundamentales las cuales llevan los siguientes nombres:

  1. Etapa semi-supervisada
  2. Fine-tuning con textos humanos
  3. Fine-tuning con rankings humanos
  4. Optimización por refuerzo

Si bien es cierto que no existe un artículo científico en el que se expliquen los detalles del entrenamiento de estos modelos, Open AI ha publicado en su sitio una explicación que basta para rastrear las técnicas utilizadas en otras publicaciones científicas. Existen algunas críticas a este trabajo en particular una de ellas feroz por parte de Yann LeCun quien describe la importancia de este trabajo como un logro ingenieril sobre un logro científico.

A gran escala ChatGPT es un modelo supervisado que realiza predicciones generativas para un texto que le escribimos y al cual le llamaremos sugerencia (¡nuestra X!). Por una predicción generativa (¡nuestra Y!) queremos decir que el modelo calculará la probabilidad más grande de que una sucesión de palabras sea compatible con nuestra X.

No alt text provided for this image
Aprendizaje supervisado

Ingenuamente podríamos decir que lo anterior es similar a lo que hace un modelo de autocompletado cuando escribimos algunas letras X y nos propone otras Y. Las sutilezas del modelo y el algoritmo de entrenamiento están divididas en las 4 etapas que mencionamos y a continuación vamos a referir al lector a un artículo científico relevante con cada una de estas etapas.

Etapa semi-supervisada

Los Grandes Modelos del Lenguaje tienen su raíz en lo que hoy conocemos como el mecanismo de atención la cual es una poderosa arquitectura de redes neuronales, quizás el artículo más representativo de estas ideas es Attention is All You Need. El modelo utilizado en ChatGPT tiene el nombre de GPT-3.5.

Decimos que estas arquitecturas aprenden de manera semi-supervisada porque en general no existen etiquetas realizadas por humanos explícitas para este proceso. Nuestras bases de datos consisten de textos tan largos como toda la Wikipedia y la distinción entre variables explicativas y variable objetivo es muy parecida a la que se hace en un Juego del Ahorcado.

Fine-tuning con textos humanos

Una vez pre-entrenado un Gran Modelo de Lenguaje es necesario realizar un Fine-tuning específico de la tarea que deseamos realizar, aunque existen otros trabajos que han logrado esta etapa con gran éxito, uno de los más cercanos a lo que hace ChatGPT es Learning to summarize from human feedback.

No alt text provided for this image
Etiquetados humanos

Notablemente en el entrenamiento de ChatGPT las supervisiones humanas ocurren tanto para las Y dada alguna X, como para las X dada alguna Y predicha por el modelo de la etapa anterior. Es importante mencionar que este etiquetado es costoso desde muchos puntos de vista pues requiere mucha concentración por parte de los etiquetadores para crear textos correctos, más adelante hablaremos de los aspectos comerciales de ChatGPT.

Fine-tuning con rankings humanos

La segunda fase en la que aparecen etiquetadores humanos es para rankear las posibles respuestas del modelo entrenado con la base de datos de la etapa anterior, en una notable versión preliminar de ChatGPT se propusieron entre 4 y 9 respuestas a las sugerencias para que los etiquetadores las ordenaran de acuerdo a su preferencia.

No alt text provided for this image
Recompensas

Uno de los primeros trabajos en los que se entrenaron estos modelos de ranking fue Fine-Tuning Language Models from Human Preferences vale la pena revisar la función de recompensa de este trabajo pues ha sido utilizada en algunas otras de las referencias de ChatGPT.

Optimización por refuerzo

La última de las etapas es una prueba más del éxito que tiene el enfoque de programación dinámica para optimizar un modelo matemático, si bien es cierto que los métodos modernos utilizados en aprendizaje por refuerzo distan de las técnicas de Bellman, sería imposible entender el éxito de estos procesos de entrenamiento sin sus trabajos. El algoritmo en particular con el que se construyen las políticas utilizadas en ChatGPT es conocido como Proximal Policy Optimization y fue desarrollado en 2017 por Open AI, es desde varios puntos de vista el estado del arte en cuanto a estas técnicas.

No alt text provided for this image
Richard Bellman

Acto II: ChatGPT como Business Tool

Existe mucha especulación sobre cómo podría utilizarse un modelo como ChatGPT para disminuir los costos en distintos aspectos de un negocio, recordemos que las horas hombre es una de las variables más costosas para cualquier empresa y la generación de textos consume muchas de esas, por ejemplo para responder a correspondencia, conversar con clientes mediante un chat, enviar cotizaciones cotizaciones, etc. En todas estas tareas podría participar ChatGPT.

Es muy importante mencionar que su formulación es tan delicada como la estrategia que seguimos para encontrar algo en Google por poner un ejemplo; buena parte del éxito de nuestra interacción con ChatGPT depende sustancialmente de la calidad de las sugerencias que nosotros realizamos.

Sugerencias para las compañías.

Por lo anterior nuestra sugerencia para aquellas empresas que deseen incorporar ChatGPT dentro de alguno de sus procesos es que consideren a un experto en estas sugerencias, lo anterior no es descabellado si tomamos en cuenta el valor que trae para un negocio un experto en SEO por ejemplo para tareas de marketing digital.

No alt text provided for this image
Aplicaciones industriales de ChatGPT

Otra sugerencia que no es baladí y podría evitar errores graves durante la incorporación de ChatGPT en algún proceso es que esto se haga de manera transparente para los usuarios, es decir que estén informados de que la interacción no es con un ser humano, desde nuestro punto de vista esto no resta valor a la solución si se considera el punto anterior.

Acto III: ChatGPT como Inteligencia Artificial

Desde hace algunos meses, miles usuarios con distintos perfiles han utilizado ChatGPT para fines muy heterogéneos y en algunos casos los resultados son verdaderamente sorprendentes. Uno de nuestros ejemplos favoritos es el experimento realizado por un profesor en Wharton sobre uno de los exámenes para obtener un MBA.

Otro ejemplo muy reciente es en la generación de publicaciones científicas, hoy mismo una de las revistas científicas más importantes Nature publicó en su editorial cuáles serían las reglas relativas a textos generados por este tipo de modelos.

Lo anterior nos orilla a preguntar hasta qué punto un modelo de este estilo lograría ser una inteligencia artificial.

No alt text provided for this image
AlphaGo

Por el otro lado han habido críticas feroces sobre su poca capacidad para resolver problemas lógicos o enunciar teoremas matemáticos con suficiencia. En este sentido, fuera de la obvia incertidumbre persistente en cualquier modelo estadístico, solo nos gustaría insistir en la lógica como se entrenaron estos modelos lo cual se traduce en cuidar preciosamente las sugerencias adecuadas que le damos al modelo. Lo anterior no significa que estos modelos sean menos inteligentes de la misma manera que un buen estudiante (inteligente) podría errar en algunas sutilezas dependiendo de las instrucciones con las que se evalúa.

Oferta académica