Exportar registro bibliográfico

Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda (2013)

  • Autores:
  • Autor USP: LACERDA, DÊNIS ANTONIO - IME
  • Unidade: IME
  • Sigla do Departamento: MAC
  • Assunto: INTELIGÊNCIA ARTIFICIAL
  • Idioma: Português
  • Resumo: Planejamento Probabilístico estuda os problemas de tomada de decisão sequencial de um agente (robótico ou de softtware), em que as ações possuem efeitos probabilísticos, e que podem ser modelados como um processo de decisão markoviano (Markov Decision Process - MDP). Num MDP o ambiente é modelado como um conjunto de estados sendo que, um agente, ao executar uma ação num determinado estado é levado para um outro estado de acordo com uma dada função de transição probabilística, recebendo do ambiente uma recompensa. Dadas as probabilidades e os valores de recompensa das ações, é possível determinar uma política de ações (i.e., um mapeamento entre estado do ambiente e ações do agente) que maximiza a recompensa esperado acumulada pela sequência de ações. Nos casos em que o agente não possui conhecimento prévio do ambiente, a melhor política precisa ser aprendida através da interação do agente com o ambiente real. Este processo é chamado de aprendizado por reforço. Algumas das limitações conhecidas do aprendizado por reforço são: (1) necessidade de muitas interações com o ambiente real para encontrar a política ótima; (2) comportamento instável em algumas situações; (3) inviável em sistemas em que as ações possuem um custo muito elevado. Neste trabalho, estudamos técnicas de aprendizado por reforço em lote (Bach Reinforcement Learning - BRL), em que o aprendizado é feito usando um histórico de interações prévias, armazenadas em um banco de dados de processos. Como um estudo de caso, aplicamos essa técnica no aprendizado de políticas para o processo de venda de impressoras, cujo objetivo é a construção de um sistema de recomendação de ações para vendedores iniciantes
  • Imprenta:
  • Data da defesa: 12.12.2013
  • Acesso à fonte
    Como citar
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      LACERDA, Denis Antonio. Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda. 2013. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2013. Disponível em: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-03072014-101251. Acesso em: 19 abr. 2024.
    • APA

      Lacerda, D. A. (2013). Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de http://www.teses.usp.br/teses/disponiveis/45/45134/tde-03072014-101251
    • NLM

      Lacerda DA. Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda [Internet]. 2013 ;[citado 2024 abr. 19 ] Available from: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-03072014-101251
    • Vancouver

      Lacerda DA. Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda [Internet]. 2013 ;[citado 2024 abr. 19 ] Available from: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-03072014-101251

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Biblioteca Digital de Produção Intelectual da Universidade de São Paulo     2012 - 2024