Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido (1998)
- Authors:
- Autor USP: AUGUSTO, SERGIO RIBEIRO - EP
- Unidade: EP
- Sigla do Departamento: PEE
- Assunto: ENGENHARIA ELÉTRICA
- Language: Português
- Abstract: Este trabalho realiza uma revisão da teoria e prática de técnicas de aprendizado por reforço, livres de modelo, segundo um ponto de vista unificado, com base em conceitos de programação dinâmica e no método das Diferenças Temporais. Duas técnicas importantes do aprendizado por reforço são abordadas: arquiteturas Crítico-Rede de Ação e método SARSA. Os algoritmos correspondentes são aplicados, em simulação, ao problema do pêndulo invertido. Este é definido de tal maneira que, após umalonga sequência de ações, apenas o resultado é conhecido, através de um sinal de avaliação qualitativo. Para a Rede de Ação são analisados três tipos de algoritmos: hebbiano, ARP e REINFORCE. Para tratar sinais atrasados, os algoritmos são desenvolvidos utilizando o conceito de elegibilidade, de maneira a fornecer crédito temporal às ações realizadas. A importância da elegibilidade é avaliada, assim como, de outros resultados de simulação. O desenvolvimento final dos algoritmos pressupõe processos de decisão de Markov finitos. Para aplicação ao pêndulo invertido, uma quantização do espaço de estados foi realizada
- Imprenta:
- Data da defesa: 02.04.1998
-
ABNT
AUGUSTO, Sergio Ribeiro; FERREIRA, Ademar. Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido. 1998.Universidade de São Paulo, São Paulo, 1998. -
APA
Augusto, S. R., & Ferreira, A. (1998). Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido. Universidade de São Paulo, São Paulo. -
NLM
Augusto SR, Ferreira A. Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido. 1998 ; -
Vancouver
Augusto SR, Ferreira A. Um estudo de técnicas de aprendizado por reforço livre de modelo: aplicação ao pêndulo invertido. 1998 ;
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas