Disciplina Módulo 4 · Métodos Prescritivos

Reinforcement Learning (Aprendizado por reforço)

Professor: Prof. Dr. Thiago Silva
Carga horária: 30h

Professor Prof. Dr. Thiago Silva Doutor em Engenharia de Produção pela UFMG com estágio na University of Stirling.

Ementa

Decisões sob incerteza. Simulação de Monte Carlo. Processos de decisão de Markov. Aproximação de Programação Dinâmica. Q-learning. Proximal Policy Optimization (PPO). Aplicações na indústria.

Conteúdo

Decisões sob incerteza
Simulação de Monte Carlo
Processos de decisão de Markov
Aproximação de Programação Dinâmica
Q-learning
Proximal Policy Optimization (PPO)
Aplicações na indústria

Bibliografia Básica

SUTTON, Richard S.; BARTO, Andrew G. Reinforcement learning: An introduction. MIT press, 2018.
BERTSEKAS, Dimitri P. et al. Dynamic programming and optimal control. Belmont, MA: Athena scientific, 2005.
POWELL, Warren B. Approximate Dynamic Programming: Solving the curses of dimensionality. John Wiley & Sons, 2011.