Exportar registro bibliográfico


Metrics:

Learning generalized policies for Markov decision processes with imprecise probabilities (2024)

  • Authors:
  • Autor USP: MOUKARZEL, ANDRÉ FERRARI - IME
  • Unidade: IME
  • Sigla do Departamento: MAC
  • DOI: 10.11606/D.45.2024.tde-16122024-154940
  • Subjects: REDES NEURAIS; PROBABILIDADE; PROCESSOS DE MARKOV; APRENDIZADO COMPUTACIONAL
  • Keywords: Generalized planning; Imprecise probabilities; Neural network; Planejamento generalizado; Planejamento probabilístico; Probabilidades imprecisas; Probabilistic planning
  • Language: Inglês
  • Abstract: ASNet é uma arquitetura de rede neural utilizada no planejamento probabilístico SSP-MDPs ou SSPs, em forma curta), que explora a estrutura relacional entre ações e proposições de um domínio para aprender políticas generalizadas. Ao utilizar aprendizado por imitação sobre as escolhas de ação de um professor (por exemplo, um planejador estado-da-arte), ASNet é capaz de aprender uma política que pode resolver grandes problemas usando um conjunto de treinamento de problemas pequenos. Motivado por isso, este trabalho investiga a aplicação de ASNet para resolver planejamento probabilístico com probabilidades imprecisas modeladas como problema do Caminho Estocástico Mais Curto (SSP-IPs), para os quais os planejadores de prateleira só conseguem resolver instâncias pequenas. Também mostramos que treinar ASNet com problemas SSP-IP relaxados, baseados em problemas com transições definidas por conjunto de estados (SSP-STs), onde as soluções são menos custosas, ainda pode levar à aprendizagem de boas políticas generalizadas. Para definir a configuração ótima da ASNet para aprender políticas generalizadas em ambientes com transições de probabilidades imprecisas, apresentamos uma análise empírica extensiva com conjuntos de treinamento de diferentes tamanhos e variações de hiperparâmetros em três domínios de planejamento. Os resultados mostram que, enquanto as soluções MDP-IP de última geração foram capazes de resolver problemas de Triangle Tireworld com até 80 variáveis de estado (ou seja,2 80 estados) em menos de 1000 segundos, a solução baseada em ASNet com políticas treinadas em pequenas instâncias de MDP-IP foi capaz de resolver problemas com mais de 260 variáveis de estado (ou seja, 2 260 estados) em menos de 1 segundo (tempo de inferência de ASNet) utilizando uma única política generalizada aprendida com apenas 6480 segundos de treinamento
  • Imprenta:
  • Data da defesa: 06.11.2024
  • Acesso à fonteAcesso à fonteDOI
    Informações sobre o DOI: 10.11606/D.45.2024.tde-16122024-154940 (Fonte: oaDOI API)
    • Este periódico é de acesso aberto
    • Este artigo NÃO é de acesso aberto

    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      MOUKARZEL, Luiz Ekke. Learning generalized policies for Markov decision processes with imprecise probabilities. 2024. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2024. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-16122024-154940/. Acesso em: 02 mar. 2026.
    • APA

      Moukarzel, L. E. (2024). Learning generalized policies for Markov decision processes with imprecise probabilities (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-16122024-154940/
    • NLM

      Moukarzel LE. Learning generalized policies for Markov decision processes with imprecise probabilities [Internet]. 2024 ;[citado 2026 mar. 02 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-16122024-154940/
    • Vancouver

      Moukarzel LE. Learning generalized policies for Markov decision processes with imprecise probabilities [Internet]. 2024 ;[citado 2026 mar. 02 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-16122024-154940/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2026