Learning generalized policies for Markov decision processes with imprecise probabilities (2024)
- Authors:
- Autor USP: MOUKARZEL, ANDRÉ FERRARI - IME
- Unidade: IME
- Sigla do Departamento: MAC
- DOI: 10.11606/D.45.2024.tde-16122024-154940
- Subjects: REDES NEURAIS; PROBABILIDADE; PROCESSOS DE MARKOV; APRENDIZADO COMPUTACIONAL
- Keywords: Generalized planning; Imprecise probabilities; Neural network; Planejamento generalizado; Planejamento probabilístico; Probabilidades imprecisas; Probabilistic planning
- Language: Inglês
- Abstract: ASNet é uma arquitetura de rede neural utilizada no planejamento probabilístico SSP-MDPs ou SSPs, em forma curta), que explora a estrutura relacional entre ações e proposições de um domínio para aprender políticas generalizadas. Ao utilizar aprendizado por imitação sobre as escolhas de ação de um professor (por exemplo, um planejador estado-da-arte), ASNet é capaz de aprender uma política que pode resolver grandes problemas usando um conjunto de treinamento de problemas pequenos. Motivado por isso, este trabalho investiga a aplicação de ASNet para resolver planejamento probabilístico com probabilidades imprecisas modeladas como problema do Caminho Estocástico Mais Curto (SSP-IPs), para os quais os planejadores de prateleira só conseguem resolver instâncias pequenas. Também mostramos que treinar ASNet com problemas SSP-IP relaxados, baseados em problemas com transições definidas por conjunto de estados (SSP-STs), onde as soluções são menos custosas, ainda pode levar à aprendizagem de boas políticas generalizadas. Para definir a configuração ótima da ASNet para aprender políticas generalizadas em ambientes com transições de probabilidades imprecisas, apresentamos uma análise empírica extensiva com conjuntos de treinamento de diferentes tamanhos e variações de hiperparâmetros em três domínios de planejamento. Os resultados mostram que, enquanto as soluções MDP-IP de última geração foram capazes de resolver problemas de Triangle Tireworld com até 80 variáveis de estado (ou seja,2 80 estados) em menos de 1000 segundos, a solução baseada em ASNet com políticas treinadas em pequenas instâncias de MDP-IP foi capaz de resolver problemas com mais de 260 variáveis de estado (ou seja, 2 260 estados) em menos de 1 segundo (tempo de inferência de ASNet) utilizando uma única política generalizada aprendida com apenas 6480 segundos de treinamento
- Imprenta:
- Data da defesa: 06.11.2024
- Este periódico é de acesso aberto
- Este artigo NÃO é de acesso aberto
-
ABNT
MOUKARZEL, Luiz Ekke. Learning generalized policies for Markov decision processes with imprecise probabilities. 2024. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2024. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-16122024-154940/. Acesso em: 02 mar. 2026. -
APA
Moukarzel, L. E. (2024). Learning generalized policies for Markov decision processes with imprecise probabilities (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-16122024-154940/ -
NLM
Moukarzel LE. Learning generalized policies for Markov decision processes with imprecise probabilities [Internet]. 2024 ;[citado 2026 mar. 02 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-16122024-154940/ -
Vancouver
Moukarzel LE. Learning generalized policies for Markov decision processes with imprecise probabilities [Internet]. 2024 ;[citado 2026 mar. 02 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-16122024-154940/
Informações sobre o DOI: 10.11606/D.45.2024.tde-16122024-154940 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
