top of page
Artboard 1 copy 7.png
Reinforcement Learning

Objetivos

  1. Estudiar las bases teóricas y técnicas para comprender las aplicaciones del Aprendizaje por Refuerzo, haciendo énfasis en los Modelos de Decisión de Markov y la Programación Dinámica.

  2. Familiarizar al alumno con aquellas aplicaciones de los Modelos de Decisión de Markov y de la Programación Dinámica fuera del contexto de Aprendizaje por Refuerzo.

  3. Estudiar las ideas principales y analizar las situaciones cuando el Aprendizaje por Refuerzo es una técnica poderosa

Temario

1. Cadenas de Markov y métodos de muestreo

  • Repaso de los fundamentos de la Probabilidad

  • Ley de los Grandes Números y Método Monte Carlo

  • Definición de Cadenas de Markov y primeros ejemplos

  • Medidas estacionarias y Teoremas Ergódicos

  • Monte Carlo para Cadenas de Markov

  • Metropolis-Hastling

 

2. Procesos de Decisión de Markov

  • Definiciones formales y primeros ejemplos

  • Funciones de Valor

  • Políticas Markovianas

 

3. Programación Dinámica

  • Ejemplos de algoritmos y su comparación con PD

  • Ecuaciones de Bellman

  • Solución clásica

  • Ecuación de Bellman para PDM

  • Relación con Teoría de Juegos

 

4. Invitación al Aprendizaje por Refuerzo

  • Política óptima y ecuaciones de Bellman

  • Algoritmos de Planeación

  • Solución vía programación lineal

  • Algoritmo de programación estocástica

  • Q-learning

  • Relaciones con el aprendizaje profundo

bottom of page