Reinforcement learning for stochastic shortest path with dead-ends (2025)
- Authors:
- Autor USP: PEREIRA, GUSTAVO DE MARI - IME
- Unidade: IME
- Sigla do Departamento: MAC
- DOI: 10.11606/D.45.2025.tde-31082025-142940
- Subjects: APRENDIZADO COMPUTACIONAL; PROBABILIDADE; PROCESSOS ESTOCÁSTICOS
- Keywords: Aprendizado de máquina; Aprendizado por reforço; Becos sem saída; Caminho mais curto estocástico; Dead-ends; Goals; Machine learning; Meta; Planejamento probabilístico; Probabilistic planning; Reinforcement learning; Sequential decision making; Stochastic shortest path; Tomada de decisão sequencial
- Agências de fomento:
- Language: Inglês
- Abstract: Problemas em Aprendizado por Reforço (AR) são frequentemente modelados usando Processos de Decisão de Markov de Horizonte Infinito Descontado (do inglês, Infinite Horizon Discounted Markov Decision Processes - IHD-MDPs). No entanto, a comunidade de Planejamento Probabilístico argumenta que problemas de Caminho Mais Curto Estocástico (do inglês, Stochastic Shortest Path - SSP) oferecem uma estrutura mais natural para tarefas orientadas a meta. Em particular, ao lidar com SSPs envolvendo becos-sem-saída (estados a partir dos quais o agente não pode mais alcançar a meta), MDPs descontados requerem o ajuste cuidadoso do fator de desconto e nem sempre é possível encontrar soluções de interesse. Com base nos resultados de pesquisas em Planejamento Probabilístico, neste trabalho, propomos modificações em algoritmos clássicos de AR, como o algoritmo Q-learning, para resolver três classes de SSPs: (i) SSPs sem becos-sem-saída, (ii) SSPs com becos-sem-saída evitáveis e (iii) SSPs com becos-sem-saída inevitáveis. Com essas modificações, é possível aplicar algoritmos de AR em uma ampla gama de problemas de tomada de decisão sequencial orientados a meta
- Imprenta:
- Data da defesa: 03.07.2025
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
PEREIRA, Gustavo de Mari. Reinforcement learning for stochastic shortest path with dead-ends. 2025. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2025. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-31082025-142940/. Acesso em: 26 dez. 2025. -
APA
Pereira, G. de M. (2025). Reinforcement learning for stochastic shortest path with dead-ends (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-31082025-142940/ -
NLM
Pereira G de M. Reinforcement learning for stochastic shortest path with dead-ends [Internet]. 2025 ;[citado 2025 dez. 26 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-31082025-142940/ -
Vancouver
Pereira G de M. Reinforcement learning for stochastic shortest path with dead-ends [Internet]. 2025 ;[citado 2025 dez. 26 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-31082025-142940/
Informações sobre o DOI: 10.11606/D.45.2025.tde-31082025-142940 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
