SUMMEUP: SISTEMA DE SUMARIZAÇÃO ABSTRATIVA DE TEXTOS CIENTÍFICOS COM DEEP LEARNING

Leonardo Pellegrini Silva, Rejane Frozza

Resumo


A divulgação de conhecimento por meios eletrônicos torna-se cada vez mais frequente, resultado imediato da globalização e da expansão da internet, porém, diferentes meios eletrônicos possuem variados níveis de confiabilidade. Embora seja possível compartilhar conhecimento confiável nas redes sociais, a atividade científica requer a busca em um local mais especializado, como os buscadores de publicações científicas, permitindo que qualquer informação seja verificada e validada por pares. Um dos aspectos mais importantes de qualquer tipo de publicação científica, além de servir de instrumento de busca do conhecimento, é compartilhar o conhecimento contido em sua essência para o leitor. Os resumos encontrados na seção pré-textual destas publicações possuem a difícil tarefa de apresentar, de maneira sucinta, os pontos centrais da pesquisa e os principais resultados. Neste contexto, o uso de técnicas de aprendizado de máquina, relacionadas ao Deep Learning, vem alcançando resultados inéditos para a área de processamento de linguagem natural, fazendo uso de transformadores pré-treinados. Deste modo, o objetivo deste trabalho é desenvolver um sistema de sumarização abstrativa de textos científicos utilizando Deep Learning e transformadores, visando a otimização do tempo de pesquisadores e acadêmicos. A metodologia definida envolve estudos de artigos e trabalhos desenvolvidos na área, a partir de levantamento bibliográfico; realização de bibliometria quantitativa e qualitativa (para busca de trabalhos relacionados ao domínio); desenvolvimento, testes e validação do sistema de sumarização de textos. O levantamento bibliográfico foi realizado nas bases de dados Science Direct, Scopus e Web of Science, com a utilização dos termos de busca “natural language processing”, “deep learning”, “summarization” e “corpus”. Neste processo, ao realizar a combinação destes termos, foram obtidas 3, 25 e 20 publicações, respectivamente, dentre as quais 4 foram selecionados de acordo com seus títulos, palavras-chave, resumo e análise do seu texto completo. Estes trabalhos possuem uma característica essencial em comum: o uso de Deep Learning, conjunto de métodos de aprendizagem de máquina baseados em redes neurais artificiais, que visam simular o processo de aprendizado do cérebro humano, para tarefas de Processamento de Linguagem Natural, área que estuda a maneira que máquinas analisam e interpretam dados em linguagem natural, com a finalidade de serem capazes de entender estes dados. Com base nos estudos realizados, e nas publicações selecionadas, o sistema proposto apresentará as seguintes etapas: i) receber uma publicação do usuário, seja em formato PDF, ou em formato de texto, com ou sem a extensão TXT; ii) extrair o conteúdo textual desta publicação para ser tratado pelo sistema; iii) realizar limpeza nos elementos textuais, como remoção de notações de referências, tabelas e legendas; iv) repassar o texto limpo para um Tokenizador pré-treinado, cuja função é segmentar o texto em diversos elementos, denominados tokens, tendo como critério para esta separação qualquer conjunto de caracteres seguidos e/ou precedidos por espaços; v) alimentar o texto tokenizado para um modelo de transformador, previamente treinado com um dataset de publicações científicas, que gerará um resumo do documento original para o usuário. O modelo de transformador utilizado será escolhido com base em testes em um conjunto de transformadores pré-selecionados da plataforma Hugging Face.

Apontamentos

  • Não há apontamentos.


ISSN 2764-2135