Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda (2013)
- Authors:
- Autor USP: LACERDA, DÊNIS ANTONIO - IME
- Unidade: IME
- Sigla do Departamento: MAC
- Assunto: INTELIGÊNCIA ARTIFICIAL
- Language: Português
- Abstract: Planejamento Probabilístico estuda os problemas de tomada de decisão sequencial de um agente (robótico ou de softtware), em que as ações possuem efeitos probabilísticos, e que podem ser modelados como um processo de decisão markoviano (Markov Decision Process - MDP). Num MDP o ambiente é modelado como um conjunto de estados sendo que, um agente, ao executar uma ação num determinado estado é levado para um outro estado de acordo com uma dada função de transição probabilística, recebendo do ambiente uma recompensa. Dadas as probabilidades e os valores de recompensa das ações, é possível determinar uma política de ações (i.e., um mapeamento entre estado do ambiente e ações do agente) que maximiza a recompensa esperado acumulada pela sequência de ações. Nos casos em que o agente não possui conhecimento prévio do ambiente, a melhor política precisa ser aprendida através da interação do agente com o ambiente real. Este processo é chamado de aprendizado por reforço. Algumas das limitações conhecidas do aprendizado por reforço são: (1) necessidade de muitas interações com o ambiente real para encontrar a política ótima; (2) comportamento instável em algumas situações; (3) inviável em sistemas em que as ações possuem um custo muito elevado. Neste trabalho, estudamos técnicas de aprendizado por reforço em lote (Bach Reinforcement Learning - BRL), em que o aprendizado é feito usando um histórico de interações prévias, armazenadas em um banco de dados de processos. Como um estudo de caso, aplicamos essa técnica no aprendizado de políticas para o processo de venda de impressoras, cujo objetivo é a construção de um sistema de recomendação de ações para vendedores iniciantes
- Imprenta:
- Data da defesa: 12.12.2013
-
ABNT
LACERDA, Denis Antonio. Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda. 2013. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2013. Disponível em: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-03072014-101251. Acesso em: 19 set. 2024. -
APA
Lacerda, D. A. (2013). Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de http://www.teses.usp.br/teses/disponiveis/45/45134/tde-03072014-101251 -
NLM
Lacerda DA. Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda [Internet]. 2013 ;[citado 2024 set. 19 ] Available from: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-03072014-101251 -
Vancouver
Lacerda DA. Aprendizado por reforço em lote: um estudo de caso para o problema de tomada de decisão em processos de venda [Internet]. 2013 ;[citado 2024 set. 19 ] Available from: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-03072014-101251
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas