Taxonomía de las redes neuronales III: funciones de pérdida

16/8/2023
AUTOR
Colegio de matemáticas Bourbaki

En textos anteriores hemos hablado sobre las redes neuronales desde dos puntos de vista que pueden ayudarnos a distinguir entre la inmensa vastedad de las posibilidades que ofrecen estos modelos matemáticos, a saber las capas y la arquitectura de una red.

En esta edición vamos a continuar con la serie: Taxonomía de las redes neuronales. La característica en la que nos concentraremos serán las funciones que nos ayudan a medir el error que comete uno de estos modelos, ya sea durante el proceso de entrenamiento o en la evaluación en algún conjunto de prueba. De manera indistinta las llamaremos funciones de error o de pérdida.

Para simplificar la exposición únicamente presentaremos el cálculo del error en un solo registro, en algunos casos el error en un batch no es únicamente el promedio pero no es lo más común.

No alt text provided for this image

Cabe destacar que en la taxonomía por capas y en la que depende de la arquitectura, el énfasis estaba en el conjunto de los datos, ya sea para representar correctamente su geometría o para delimitar el alcance del modelo matemático. Cuando distinguimos a las redes neuronales por medio de su error, no estamos concentrados exactamente en el dataset sino en la métrica con la que hemos decidido evaluarnos. Esta decisión puede estar relacionada con el estado del arte de un problema o una estrategia de negocio.

Con el objetivo de simplificar la presentación vamos a concentrarnos en 5 funciones de error que no agotan las posibilidades sin embargo esperemos que nuestros lectores las encuentren lo suficientemente representativas. Existen muchas otras funciones de pérdida que no trataremos en este texto y las cuales le recomendamos estudiar a nuestros lectores, por ejemplo la medida de Kullback-Leiebler.

No alt text provided for this image

Además de presentar la fórmula matemática de la función de error vamos a sugerir un problema industrial en el que comúnmente se podría utilizar esta métrica durante el análisis de resultados.

Error cuadrático

No alt text provided for this image
Error cuadrático

Es la métrica comúnmente utilizada para problemas de regresión, se caracteriza por concentrarse en las distancias al cuadrado entre dos valores numéricos, la primera razón por la cual se consideran valores al cuadrado es para eliminar la posibilidad de que errores grandes negativos se anulen con errores grandes positivos.

No alt text provided for this image

Para entender mejor sobre cuál es la razón principal tendríamos que hablar sobre las técnicas del cálculo diferencial durante el entrenamiento de las redes.

Error del coseno

No alt text provided for this image

En algunos casos no será suficiente con calcular el error entre dos números, pensemos por ejemplo cuando la variable objetivo es más rica en estructura como las respuestas de un LLM a un prompt, en estos casos nos gustaría poder comparar dos vectores en lugar de comparar únicamente dos números.

No alt text provided for this image

El error del coseno compara la relación lineal que existe coordenada a coordenada la cual coincide con el ángulo entre los dos vectores.

Error de entropía cruzada

No alt text provided for this image

Cuando el tipo de variable que deseamos predecir es parecida a una categórica, así como en el caso de los textos, podría ser necesario utilizar métricas que se generalicen mejor para vectores, distintas clases como lo es la entropía cruzada.

No alt text provided for this image

La motivación de esta función de pérdida proviene del estudio de la información desde un punto de vista matemático el cual fue iniciado por Shannon.

Error hinge

No alt text provided for this image

Durante el algoritmo de entrenamiento también podríamos intentar mejorar algo respecto al desempeño del modelo, uno de los principales problemas de los modelos de machine learning es el del sobre-ajuste, utilizando la función de pérdida de hinge es posible intentar reducir el sobre-ajuste de un modelo.

No alt text provided for this image

Esta función de pérdida es muy importante para las máquinas de soporte vectorial de las que ya hemos platicado anteriormente.

Error disperso

No alt text provided for this image

En las redes neuronales profundas la sobre parametrización de un modelo puede tener graves consecuencias tanto para el proceso computacional como para la aproximación estadística de un buen desempeño del modelo. En algunos casos es posible incluir ciertas hipótesis sobre la naturaleza de nuestros datos, por ejemplo si son dispersos.

No alt text provided for this image

Esta es solo una de las posibilidades pues existen otras funciones que hacen algo muy parecido.

Oferta académica