FERRAMENTA PARA CAPTURA DINÂMICA DE DADOS BASEADA EM ARQUIVOS DE LOG

Eduardo Kroth, Gustavo Mota Ferreira

Resumo


 

Um processo de ETL (Extraction-Transformation-Load) é responsável pela extração, transformação e carga de dados para um Data Warehouse (DW). Existem muitas ferramentas que executam esta tarefa, no entanto, mesmo com a utilização destas ferramentas é possível surgir problemas na fase de extração dos dados. Os problemas surgem quando a extração de dados deve ser realizada em bases de dados de sistemas desenvolvidos por terceiros e estes não possuem nenhum mecanismo que permita extrair apenas os dados que são alterados. Uma solução simples para este problema seria realizar uma extração de dados completa, mas se a base de dados do sistema de origem for muito grande, o processo de extração completa poderá levar muito tempo e consumir muitos recursos da fonte de dados. Para solucionar este problema, este trabalho apresenta uma ferramenta capaz de realizar extrações de dados incrementais, onde a captura dos dados alterados deverá ser realizada a partir dos registros de logs transacionais dos Sistemas Gerenciadores de Banco de Dados (SGBD) MySQL, SQL Server e Oracle Database. Este trabalho tem como objetivo o desenvolvimento de um software capaz de identificar dados que foram modificados em uma base de dados gerenciada pelos seguintes SGBD: MySql, SQL Server e Oracle. A ferramenta deverá realizar a extração dos dados sem precisar realizar qualquer alteração nas bases de dados fonte. Para o desenvolvimento da ferramenta, primeiramente foi realizado um estudo detalhado para descobrir a estrutura e a forma como cada um dos SGBDs MySQL, SQL Server e OracleDB, trabalha com os logs de transações. Nesta etapa do projeto foi necessária a instalação, criação de tabelas e execução de scripts SQL sobre cada um dos SGBDs. Com isso foi possível observar o conteúdo armazenado por cada SGBD dentro dos arquivos de logs. Na segunda etapa do projeto foi realizado o desenvolvimento da ferramenta utilizando JAVA como linguagem de programação. Os processos de ETL presentes no desenvolvimento de DW, enfrentam problemas na etapa de extração de dados quando a execução desta tarefa deve ser realizada sobre sistemas transacionais que possuem grandes volumes de informações. O grande volume de informação restringe o uso de extrações de dados completas. Analisando as três técnicas de captura dinâmica de dados, a técnica log shipping foi escolhida para ser aplicada a ferramenta de extração de dados. O que motivou a escolha de log shipping foi o fato de ser a menos intrusiva aos sistemas de onde os dados devem ser extraídos, não sendo necessária a modificação dos sistemas de origem dos dados.

 


Apontamentos

  • Não há apontamentos.