
Reinforcement Learning
Objetivos
-
Estudiar las bases teóricas y técnicas para comprender las aplicaciones del Aprendizaje por Refuerzo, haciendo énfasis en los Modelos de Decisión de Markov y la Programación Dinámica.
-
Familiarizar al alumno con aquellas aplicaciones de los Modelos de Decisión de Markov y de la Programación Dinámica fuera del contexto de Aprendizaje por Refuerzo.
-
Estudiar las ideas principales y analizar las situaciones cuando el Aprendizaje por Refuerzo es una técnica poderosa
Temario
1. Cadenas de Markov y métodos de muestreo
-
Repaso de los fundamentos de la Probabilidad
-
Ley de los Grandes Números y Método Monte Carlo
-
Definición de Cadenas de Markov y primeros ejemplos
-
Medidas estacionarias y Teoremas Ergódicos
-
Monte Carlo para Cadenas de Markov
-
Metropolis-Hastling
2. Procesos de Decisión de Markov
-
Definiciones formales y primeros ejemplos
-
Funciones de Valor
-
Políticas Markovianas
3. Programación Dinámica
-
Ejemplos de algoritmos y su comparación con PD
-
Ecuaciones de Bellman
-
Solución clásica
-
Ecuación de Bellman para PDM
-
Relación con Teoría de Juegos
4. Invitación al Aprendizaje por Refuerzo
-
Política óptima y ecuaciones de Bellman
-
Algoritmos de Planeación
-
Solución vía programación lineal
-
Algoritmo de programación estocástica
-
Q-learning
-
Relaciones con el aprendizaje profundo