Exploring the boundaries of deep reinforcement learning in simulated environments: a study on financial trading and lot-sizing (2024)
- Authors:
- Autor USP: FELIZARDO, LEONARDO KANASHIRO - EP
- Unidade: EP
- Sigla do Departamento: PSI
- Subjects: PESQUISA OPERACIONAL; SISTEMAS AUTÔNOMOS; NEGOCIAÇÃO; SISTEMAS MULTIAGENTES
- Agências de fomento:
- Language: Inglês
- Abstract: Dado o ambiente complexo e em rápida mudança de hoje, é essencial elaborar metodologias robustas para a tomada de decisões. No domínio dos processos algorítmicos de tomada de decisão, o paradigma de Reinforcement Learning (RL) tem-se afirmado progressivamente como uma metodologia preeminente. Essa abordagem é especialmente proficiente ao lidar com ambientes caracterizados por atributos dinâmicos e não determinísticos. No entanto, é fundamental analisar a adequação de RL para cada aplicação. Nesta tese, utilizamos uma estrutura matemática unificada baseada no controle estocástico que nos ajuda a identificar as principais características de um problema, permitindo a descoberta de métodos mais eficazes para melhor convergência para um espaço de solução. Com esta estrutura matemática, desenvolvemos e descrevemos as duas contribuições significativas feitas nesta tese. Primeiramente, propomos um método de classificação denominado Residual Network Long Short-Term Memory Actor (RSLSTM-A) para resolver o Active Single-Asset Trading Problem (ASATP). Nosso método supervisionado proposto apresentou resultados superiores ao estado da arte dos métodos de RL . Como o ASATP é um tipo de problema onde a matriz de probabilidades de transição não depende das ações do agente, é razoável supor que a Supervised Learning possa ser capaz de alcançar melhores resultados frente ao uso de RL. Além disso, assumindo que nesta instância do problema nao enfrentamos um dilema de exploração-aproveitamento (exploration-exploitation), os métodos contextual bandit podem não ser adequados, estabelecendo-se Supervised Learning a melhor abordagem. Na segunda parte dos resultados desta tese, validamos o potencial das técnicas de RL em outra instância do problema, o Stochastic Discrete Lot-SizingProblem (SDLSP), propondo uma abordagem multiagente que supera as principais técnicas de RL. Além disso, aplicamos estados pós-decisão para construir um método de Approximate Dynamic Programming que pode superar métodos básicos e de Deep Reinforcement Learning em várias configurações de SDLSP.
- Imprenta:
- Data da defesa: 11.01.2024
-
ABNT
FELIZARDO, Leonardo Kanashiro. Exploring the boundaries of deep reinforcement learning in simulated environments: a study on financial trading and lot-sizing. 2024. Tese (Doutorado) – Universidade de São Paulo, São Paulo, 2024. Disponível em: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-26082024-093343/pt-br.php. Acesso em: 26 fev. 2026. -
APA
Felizardo, L. K. (2024). Exploring the boundaries of deep reinforcement learning in simulated environments: a study on financial trading and lot-sizing (Tese (Doutorado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/3/3142/tde-26082024-093343/pt-br.php -
NLM
Felizardo LK. Exploring the boundaries of deep reinforcement learning in simulated environments: a study on financial trading and lot-sizing [Internet]. 2024 ;[citado 2026 fev. 26 ] Available from: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-26082024-093343/pt-br.php -
Vancouver
Felizardo LK. Exploring the boundaries of deep reinforcement learning in simulated environments: a study on financial trading and lot-sizing [Internet]. 2024 ;[citado 2026 fev. 26 ] Available from: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-26082024-093343/pt-br.php
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
