Risk Sensitivity with exponential functions in reinforcement learning: an empirical analysis (2023)
- Authors:
- Autor USP: PEREIRA NETO, EDUARDO LOPES - IME
- Unidade: IME
- Sigla do Departamento: MAC
- DOI: 10.11606/D.45.2023.tde-06122023-173644
- Subjects: PROCESSOS DE MARKOV; PROCESSOS ESTOCÁSTICOS
- Keywords: Aprendizado por Reforço; Exponential Expected Utility; Markov Decision Process; Processo de Decisão Markovianos; Reinforcement Learning; Risk Sensitive; Sensivel a Risco; Utilidade Esperada Exponencial
- Language: Inglês
- Abstract: O Aprendizado por Reforço provou ser altamente bem-sucedido na resolução de problemas de decisão sequencial em ambientes complexos, com foco na maximização da recompensa acumulada esperada. Embora Aprendizado por Reforço tenha mostrado seu valor, os cenários do mundo real geralmente envolvem riscos inerentes que vão além dos resultados esperados, onde, na mesma situação, diferentes agentes podem considerar assumir diferentes níveis de risco. Nesses casos, o Aprendizado por Reforço Sensível ao Risco surge como uma solução, incorporando critérios de risco ao processo de tomada de decisão. Dentre esses critérios, métodos baseados em exponencial têm sido extensivamente estudados e aplicados. No entanto, a resposta de critérios exponenciais quando integrados com parâmetros de aprendizagem e aproximações, particularmente em combinação com Aprendizado por Reforço Profundo, permanece relativamente inexplorado. Essa falta de conhecimento pode impactar diretamente na aplicabilidade desses métodos em cenários do mundo real. Nesta dissertação, apresentamos um arcabouço que facilita a comparação de critérios de risco exponencial, como Utilidade Exponencial Esperada, Transformação Exponencial da Diferença Temporal e Transformação da Diferença Temporal com Soft Indicator considerando algoritmos de Aprendizagem por Reforço, como Q-Learning e Deep Q-Learning. Demonstramos formalmente que a Utilidade Esperada Exponencial e a Transformação Exponencial da Diferença Temporal convergem para omesmo valor. Também realizamos experimentos para explorar a relação de cada critério de risco exponencial com o parâmetro de taxa de aprendizado, o fator de risco e os algoritmos de amostragem. Os resultados revelam que a Utilidade Esperada Exponencial apresenta estabilidade superior. Adicionalmente, esta dissertação analisa empiricamente problemas de estouro numérico. Uma técnica de truncamento para lidar com esse problema é analisada. Além disso, propomos a aplicação da técnica LogSumExp para mitigar este problema em algoritmos que utilizam a Utilidade Esperada Exponencial
- Imprenta:
- Data da defesa: 05.10.2023
- Este periódico é de acesso aberto
- Este artigo NÃO é de acesso aberto
-
ABNT
PEREIRA NETO, Eduardo Lopes. Risk Sensitivity with exponential functions in reinforcement learning: an empirical analysis. 2023. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2023. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-06122023-173644/. Acesso em: 21 jan. 2026. -
APA
Pereira Neto, E. L. (2023). Risk Sensitivity with exponential functions in reinforcement learning: an empirical analysis (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-06122023-173644/ -
NLM
Pereira Neto EL. Risk Sensitivity with exponential functions in reinforcement learning: an empirical analysis [Internet]. 2023 ;[citado 2026 jan. 21 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-06122023-173644/ -
Vancouver
Pereira Neto EL. Risk Sensitivity with exponential functions in reinforcement learning: an empirical analysis [Internet]. 2023 ;[citado 2026 jan. 21 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-06122023-173644/
Informações sobre o DOI: 10.11606/D.45.2023.tde-06122023-173644 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
