Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda

Lacerda, Denis Antonio; Barros, Leliane Nunes de

Tese

Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda (2013)

Autores:
- Lacerda, Denis Antonio
- Barros, Leliane Nunes de (Orientador)
Autor USP: LACERDA, DÊNIS ANTONIO - IME
Unidade: IME
Sigla do Departamento: MAC
Assunto: INTELIGÊNCIA ARTIFICIAL
Idioma: Português
Resumo: Planejamento Probabilístico estuda os problemas de tomada de decisão sequencial de um agente (robótico ou de softtware), em que as ações possuem efeitos probabilísticos, e que podem ser modelados como um processo de decisão markoviano (Markov Decision Process - MDP). Num MDP o ambiente é modelado como um conjunto de estados sendo que, um agente, ao executar uma ação num determinado estado é levado para um outro estado de acordo com uma dada função de transição probabilística, recebendo do ambiente uma recompensa. Dadas as probabilidades e os valores de recompensa das ações, é possível determinar uma política de ações (i.e., um mapeamento entre estado do ambiente e ações do agente) que maximiza a recompensa esperado acumulada pela sequência de ações. Nos casos em que o agente não possui conhecimento prévio do ambiente, a melhor política precisa ser aprendida através da interação do agente com o ambiente real. Este processo é chamado de aprendizado por reforço. Algumas das limitações conhecidas do aprendizado por reforço são: (1) necessidade de muitas interações com o ambiente real para encontrar a política ótima; (2) comportamento instável em algumas situações; (3) inviável em sistemas em que as ações possuem um custo muito elevado. Neste trabalho, estudamos técnicas de aprendizado por reforço em lote (Bach Reinforcement Learning - BRL), em que o aprendizado é feito usando um histórico de interações prévias, armazenadas em um banco de dados de processos. Como um estudo de caso, aplicamos essa técnica no aprendizado de políticas para o processo de venda de impressoras, cujo objetivo é a construção de um sistema de recomendação de ações para vendedores iniciantes
Imprenta:
- Local: São Paulo
- Data de publicação: 2013
Data da defesa: 12.12.2013

Como citar

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

LACERDA, Denis Antonio. Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda. 2013. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2013. Disponível em: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-03072014-101251. Acesso em: 19 abr. 2024.
APA

Lacerda, D. A. (2013). Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de http://www.teses.usp.br/teses/disponiveis/45/45134/tde-03072014-101251
NLM

Lacerda DA. Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda [Internet]. 2013 ;[citado 2024 abr. 19 ] Available from: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-03072014-101251
Vancouver

Lacerda DA. Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda [Internet]. 2013 ;[citado 2024 abr. 19 ] Available from: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-03072014-101251

ReP

Exportar registro bibliográfico

Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda (2013)

Como citar

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

Unidades USP

ReP

Exportar registro bibliográfico

Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda (2013)

Como citar

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: