Learning generalized policies for Markov decision processes with imprecise probabilities

Moukarzel, Luiz Ekke; Barros, Leliane Nunes de

Tese

Learning generalized policies for Markov decision processes with imprecise probabilities (2024)

Authors:
- Moukarzel, Luiz Ekke
- Barros, Leliane Nunes de (Orientador)
Autor USP: MOUKARZEL, ANDRÉ FERRARI - IME
Unidade: IME
Sigla do Departamento: MAC
DOI: 10.11606/D.45.2024.tde-16122024-154940
Subjects: REDES NEURAIS; PROBABILIDADE; PROCESSOS DE MARKOV; APRENDIZADO COMPUTACIONAL
Keywords: Generalized planning; Imprecise probabilities; Neural network; Planejamento generalizado; Planejamento probabilístico; Probabilidades imprecisas; Probabilistic planning
Language: Inglês
Abstract: ASNet é uma arquitetura de rede neural utilizada no planejamento probabilístico SSP-MDPs ou SSPs, em forma curta), que explora a estrutura relacional entre ações e proposições de um domínio para aprender políticas generalizadas. Ao utilizar aprendizado por imitação sobre as escolhas de ação de um professor (por exemplo, um planejador estado-da-arte), ASNet é capaz de aprender uma política que pode resolver grandes problemas usando um conjunto de treinamento de problemas pequenos. Motivado por isso, este trabalho investiga a aplicação de ASNet para resolver planejamento probabilístico com probabilidades imprecisas modeladas como problema do Caminho Estocástico Mais Curto (SSP-IPs), para os quais os planejadores de prateleira só conseguem resolver instâncias pequenas. Também mostramos que treinar ASNet com problemas SSP-IP relaxados, baseados em problemas com transições definidas por conjunto de estados (SSP-STs), onde as soluções são menos custosas, ainda pode levar à aprendizagem de boas políticas generalizadas. Para definir a configuração ótima da ASNet para aprender políticas generalizadas em ambientes com transições de probabilidades imprecisas, apresentamos uma análise empírica extensiva com conjuntos de treinamento de diferentes tamanhos e variações de hiperparâmetros em três domínios de planejamento. Os resultados mostram que, enquanto as soluções MDP-IP de última geração foram capazes de resolver problemas de Triangle Tireworld com até 80 variáveis de estado (ou seja,2 80 estados) em menos de 1000 segundos, a solução baseada em ASNet com políticas treinadas em pequenas instâncias de MDP-IP foi capaz de resolver problemas com mais de 260 variáveis de estado (ou seja, 2 260 estados) em menos de 1 segundo (tempo de inferência de ASNet) utilizando uma única política generalizada aprendida com apenas 6480 segundos de treinamento
Imprenta:
- Publisher place: São Paulo
- Date published: 2024
Data da defesa: 06.11.2024

Informações sobre o DOI: 10.11606/D.45.2024.tde-16122024-154940 (Fonte: oaDOI API)

Este periódico é de acesso aberto
Este artigo NÃO é de acesso aberto

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

MOUKARZEL, Luiz Ekke. Learning generalized policies for Markov decision processes with imprecise probabilities. 2024. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2024. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-16122024-154940/. Acesso em: 02 mar. 2026.
APA

Moukarzel, L. E. (2024). Learning generalized policies for Markov decision processes with imprecise probabilities (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-16122024-154940/
NLM

Moukarzel LE. Learning generalized policies for Markov decision processes with imprecise probabilities [Internet]. 2024 ;[citado 2026 mar. 02 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-16122024-154940/
Vancouver

Moukarzel LE. Learning generalized policies for Markov decision processes with imprecise probabilities [Internet]. 2024 ;[citado 2026 mar. 02 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-16122024-154940/

ReP

Exportar registro bibliográfico

Learning generalized policies for Markov decision processes with imprecise probabilities (2024)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Learning generalized policies for Markov decision processes with imprecise probabilities (2024)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: