Model-based policy gradients: an empirical study on linear quadratic environments

Lovatto, Ângelo Gregório; Barros, Leliane Nunes de

Tese

Model-based policy gradients: an empirical study on linear quadratic environments (2022)

Authors:
- Lovatto, Ângelo Gregório
- Barros, Leliane Nunes de (Orientador)
Autor USP: LOVATTO, ÂNGELO GREGÓRIO - IME
Unidade: IME
Sigla do Departamento: MAC
DOI: 10.11606/D.45.2022.tde-28062022-123656
Subjects: APRENDIZADO COMPUTACIONAL; PROCESSOS ESTOCÁSTICOS
Keywords: Aprendizado de máquina; Aprendizado por reforço; Baseado em modelo; Gradient methods; Machine learning; Métodos de gradiente; Model-based; Reinforcement learning
Agências de fomento:
- Financiamento CAPES
Language: Inglês
Abstract: Métodos de Gradiente de Valor Estocástico (GVE) estão por trás de muitos avanços recentes de agentes de Aprendizado por Reforço (AR) baseado em modelo em espaços de estado-ação contínuos. Tais métodos usam dados coletados por exploração no ambiente para produzir um modelo de sua dinâmica, que é então usado para aproximar o gradiente, com relação aos parâmetros do agente, da função objetivo. Apesar da significância prática desses métodos, muitas escolhas de design algorítmico ainda carecem de rigorosas justificativas teóricas ou empíricas. Em vez disso, muitos trabalhos colocam muito peso em métodos de avaliação em ambientes-referência, o que mistura as contribuições de vários componentes do design de um agente de AR para o desempenho final. Este trabalho propõe uma análise refinada de componentes algorítmicos centrais a métodos de GVE, incluindo: a fórmula de estimação do gradiente, aprendizado do modelo e aproximação de função-valor. É implementado um ambiente-referência configurável baseado no regulador Linear Quadrático Gaussiano (LQG), permitindo computar o verdadeiro GVE e compará-lo com abordagens via aprendizado. Análises são conduzidas em uma variedade de ambientes LQG, avaliando o impacto de cada componente algorítmico em tarefas de predição e controle. Os resultados mostram que um estimador de gradiente amplamente usado induz um balanço de viés e variância favorável, usando uma esperança enviesada que produz estimativas de gradiente melhores com poucas amostras emcomparação à fórmula não-enviesada do gradiente. Quanto ao aprendizado do modelo, demonstra-se que o modelo pode sobreajustar-se à dados \\textit, levando à predições acuradas de estados mas inacuradas de gradientes, salientando a importância da exploração até em ambientes estocásticos. É também mostrado que aproximação de função-valor pode ser mais instável que aprendizado de modelo, mesmo em simples ambientes lineares. Finalmente, avalia-se o desempenho ao usar o modelo para estimar o gradiente diretamente vs. para aproximar a função-valor, concluindo que a primeira abordagem é mais efetiva tanto para predição quanto para controle
Imprenta:
- Publisher place: São Paulo
- Date published: 2022
Data da defesa: 17.06.2022

Informações sobre o DOI: 10.11606/D.45.2022.tde-28062022-123656 (Fonte: oaDOI API)

Este periódico é de acesso aberto
Este artigo é de acesso aberto
URL de acesso aberto
Cor do Acesso Aberto: gold
Licença: cc-by-nc-sa

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

LOVATTO, Ângelo Gregório. Model-based policy gradients: an empirical study on linear quadratic environments. 2022. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2022. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-28062022-123656/. Acesso em: 05 jan. 2026.
APA

Lovatto, Â. G. (2022). Model-based policy gradients: an empirical study on linear quadratic environments (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-28062022-123656/
NLM

Lovatto ÂG. Model-based policy gradients: an empirical study on linear quadratic environments [Internet]. 2022 ;[citado 2026 jan. 05 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-28062022-123656/
Vancouver

Lovatto ÂG. Model-based policy gradients: an empirical study on linear quadratic environments [Internet]. 2022 ;[citado 2026 jan. 05 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-28062022-123656/

ReP

Exportar registro bibliográfico

Model-based policy gradients: an empirical study on linear quadratic environments (2022)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Model-based policy gradients: an empirical study on linear quadratic environments (2022)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: