USO DA APRENDIZAGEM POR REFORÇO EM UM SISTEMA DE TROCA AUTOMATIZADA DE CRIPTOMOEDAS

Raul Duarte Martins de Oliveira, Rejane Frozza

Resumo


A aprendizagem de máquina é uma área que vem ganhando visibilidade para resolução de problemas do mundo atual. Em particular, o método de aprendizagem por reforço vem ganhando espaço na resolução de problemas em áreas que antes não eram abrangidas de forma eficiente pela aprendizagem de máquina, sendo uma delas as finanças. Na área de finanças, ressalta-se a área de mercados financeiros, principalmente, os de ativos e os de câmbio estrangeiro, que geram movimentações monetárias gigantescas diariamente. Além desses dois mercados financeiros, existe o mercado de câmbio de criptomoedas, que é um mercado ainda novo e está ganhando espaço nos últimos anos devido ao rápido crescimento do valor das criptomoedas e a sua similaridade ao mercado de câmbio estrangeiro. Assim, o objetivo principal é desenvolver um sistema de troca automatizado, utilizando o método de aprendizagem por reforço, para operar no mercado de câmbio de criptomoedas. A metodologia da pesquisa envolve: (1) levantamento bibliográfico e estudo sobre aprendizagem de máquina, aprendizagem por reforço, troca automatizada, criptomoedas e bitcoin; (2) bibliometria quantitativa (levantamento de trabalhos existentes relacionados ao assunto) e qualitativa (sínteses dos trabalhos relacionados escolhidos), com análise e comparação dos trabalhos; (3) modelagem e desenvolvimento do sistema de troca automatizado de criptomoedas, utilizando aprendizagem por reforço; (4) validação do desempenho alcançado com o sistema. Para validação, serão utilizados dois métodos: i) o backtesting, que consiste em apresentar ao sistema dados históricos, não previamente conhecidos, na ordem em que ocorreram, como se fosse o mercado no momento atual e assim avaliar as ações que teriam sido executadas e também suas consequências; ii) testes comparando os resultados atingidos pelo sistema com os resultados gerados por um especialista humano, operando no mesmo ambiente ao longo de um determinado período. Os testes serão realizados no ambiente de teste da exchange BitMEX. No sistema em desenvolvimento, o usuário interage com dois agentes inteligentes diferentes de Aprendizagem por Reforço, que recebem os parâmetros do ambiente, que são: o valor de abertura das velas (valor do ativo em um intervalo de tempo), o valor de fechamento das velas, o valor de máximo e o valor de mínimo. Os agentes possuirão visões diferentes do ambiente para que possam identificar diferentes tendências de mercado apresentadas em frações diferentes de tempo. As possíveis ações advindas das decisões dos agentes inteligentes são: i) Long, que é a posição em que se compra contratos futuros e espera que o valor do bitcoin aumente, para que se possa vender e obter lucro; ii) Short, que é a posição em que se vende contratos futuros e espera que o valor do bitcoin diminua, para que se possa recomprar os contratos vendidos e obter lucro; e iii) Wait, que é não executar ação de compra ou venda e apenas manter o estado atual, seja uma posição Long ou Short ou nenhuma posição. Esses agentes enviam sua escolha de ação para um terceiro agente (agente mediador) que analisará essas decisões juntamente com o estado do ambiente e escolherá a ação a ser tomada. Os agentes utilizarão o algoritmo de Deep Q-Networks, que combina Aprendizagem por Reforço com Redes Neurais Artificiais. Espera-se que o sistema desenvolvido seja capaz de realizar trocas automatizadas, atingindo lucro satisfatório quando comparado a um especialista humano na execução da tarefa.

Apontamentos

  • Não há apontamentos.