← Voltar ao módulo
Disciplina Módulo 4 · Métodos Prescritivos

Reinforcement Learning (Aprendizado por reforço)

Carga horária
30h
Professor Prof. Dr. Thiago Silva Doutor em Engenharia de Produção pela UFMG com estágio na University of Stirling.
Ementa

Decisões sob incerteza. Simulação de Monte Carlo. Processos de decisão de Markov. Aproximação de Programação Dinâmica. Q-learning. Proximal Policy Optimization (PPO). Aplicações na indústria.

Conteúdo
  • Decisões sob incerteza
  • Simulação de Monte Carlo
  • Processos de decisão de Markov
  • Aproximação de Programação Dinâmica
  • Q-learning
  • Proximal Policy Optimization (PPO)
  • Aplicações na indústria
Bibliografia Básica
  • SUTTON, Richard S.; BARTO, Andrew G. Reinforcement learning: An introduction. MIT press, 2018.
  • BERTSEKAS, Dimitri P. et al. Dynamic programming and optimal control. Belmont, MA: Athena scientific, 2005.
  • POWELL, Warren B. Approximate Dynamic Programming: Solving the curses of dimensionality. John Wiley & Sons, 2011.
WhatsApp