Deep reinforcement learning approach applied to an automated asset trading system
Resumo
Resumo: Anegociação quantitativa consiste em estratégias baseadas em exploração estatística para identificar padrões, criando oportunidades de negociação. O aprendizado por reforço profundo (DRL) alcançou progresso significativo em várias áreas, como jogos, controle e manipulação, permitindo que os computadores executem tarefas complexas de tomada de decisão. Aplicado a finanças, os agentes de negociação DRL podem otimizar suas decisões em diferentes cenários de mercado, gerando uma estratégia rentável por meio de suas experiências anteriores. No entanto, muitas abordagens fornecem recompensas de maneira constante ao agente, devido ao desafio de conduzi-lo a uma política lucrativa fornecendo informações ocasionalmente. Embora prover recompensas a cada iteração do algoritmo propicie a conduzi-lo a uma política rapidamente, tal método faz com que o mesmo tenha dificuldades em convergir a uma política generalizada para diversos de cenários de mercado. Esta dissertação de mestrado propõe um sistema de negociação baseado em DRL que possui como componente principal, uma variante do algoritmo Redes Q Profundas (DQN) chamada de DQN de Negociação Extendido (ETDQN) que é capaz adaptar seu aprendizado para negociar em diversos momentos de comportamento do mercado, recebendo recompensas apenas ao término da negociação. Baseado em aprendizado distributivo e outras extensões independentes propostas pela comunidade DRL, o algoritmo otimiza sua tomada de decisão por meio de experiências amostradas por prioridade, contendo cada uma sub-objetivos dinstintos, auxiliando o agente a alcançar seu objetivo principal de reter o valor máximo de lucros, e também removendo a necessidade de ajustes finos de recompensa. ETDQN aprendeu a negociar em três diferentes sinais de séries temporais financeiras, identificando com sucesso oportunidades de negociação em diferentes cenários de mercado. O algoritmo apresentou um comportamento mais agressivo em relação à volatilidade de seus retornos anuais do que o benchmark DQN de Negociação e teve 1,46 e 7,13 vezes melhor desempenho em relação aos retornos cumulativos diários médios aplicado a dados de mercado históricos da Western Digital Corporation e criptomoeda Cosmos. Além disso, o algoritmo proposto foi 2,14 vezes mais lucrativo do que o segundo benchmark mais bem avaliado aplicado aos dados do fundo negociado em bolsa iShares S&P500, "Compre-e-Segure". Abstract: Quantitative trading consists of strategies that rely on statistical exploration to identify patterns that turn into trading opportunities. Deep reinforcement learning (DRL) achieved significant progress in several areas, such as gaming, control, and manipulation, enabling computers to perform complex decision-making tasks. Applied to finance, DRL trading agents can optimize their decisions during distinct market scenarios to reach a profitable strategy by learning from previous experiences. However, many approaches provide constant feedback to the agent, due to the complicated reward tuning that is required to guide the algorithm to a lucrative policy by only giving information occasionally. This master’s thesis proposes a DRL-based trading system that has as its main component, a variant of the Deep Q-Network algorithm called Extended Trading DQN (ETDQN) that can be able to adapt its learning to trade across numerous market-behavior moments, receiving feedback only when a trade is over. Based on distributional learning and other independent extensions submitted by the DRL community, the algorithm optimizes its decision-making process by replaying prioritized experiences containing different sub-goals each, assisting the agent to achieve its main objective of retaining the maximum value of profits, as well as removing the need for fine-tuning rewards. ETDQN learned to trade on three different financial time series signals, successfully identifying trading opportunities in different market scenarios. The algorithm showed more aggressive behavior regarding the volatility of its annual returns than the Trading DQN benchmark and had 1.46 and 7.13 times better performance regarding mean daily cumulative returns in Western Digital Corporation and Cosmos cryptocurrency historical market data. In addition, the proposed algorithm was 2.14 times more lucrative than the second best-evaluated benchmark with iShares S&P500 exchange-traded fund data frame, Buy-and-Hold.
Collections
- Dissertações [203]