INTEGRAÇÃO DE BIG DATA E DATA WAREHOUSE

EDUARDO KROTH, RICARDO SCHROEDER

Resumo


Dentro da Ciência da Computação, a área de Análise de Dados tem se consolidado, nos últimos anos, com conceitos e tecnologias específicas, tais como: Business Intelligence e Data Warehouse. Comumente, estas se utilizam de dados transacionais para construir novas bases de dados onde usuários veem para criar consultas ad hoc. Nos últimos anos, a área de Bancos de Dados visualiza a Internet como um grande "banco de dados" onde se tem inúmeros dados, porém, são dados semi-estruturados ou não estruturados. Mais recentemente, surge o conceito de Big Data, o qual consiste basicamente da coleta e do armazenamento de imensos dados existentes na Internet relacionados a um domínio de problema qualquer. Sendo assim, Big Data pode ser visto como uma solução importante para auxiliar na tomada de decisão, complementado os sistemas de Data Warehouse que muitas empresas já possuem. Por serem soluções com conceitos um pouco diferentes, a integração das informações neles contidas, tornam-se complexas. Por exemplo, do lado do Data Warehouse, tem-se a lista de todos os clientes, as cidades de uma empresa, os produtos adquiridos nas ultimas compras, entre outros dados transacionais. Pelo lado do Big Data, se tem um conjunto de dados de inúmeras pessoas, de inúmeras cidades e de inúmeros produtos, e para cada tipo de dado, mais dados adjacentes e não estruturados. Este trabalho visa especificar diretrizes para facilitar a integração destas informações. Através do mapeamento dos atributos do Data Warehouse com os atributos do Big Data, será possível realizar consultas integradas, formando uma visão referenciada entre os dados. Para desenvolver esta solução, o sistema de banco de dados utilizado pelo Big Data é o HBase, um banco de dados não relacional e para o Data Warehouse é utilizado um banco de dados relacional. No entanto, antes de começar a ser feita a análise para integração, é preciso preencher o HBase com informações coletadas da internet, para isto é utilizado o programa Ontoclipping, desenvolvido no trabalho de conclusão de Claudio Omar Corrêa Carvalho Jr. O conteúdo coletado e indexado pelo Ontoclipping será exportado para o HBase. Após realizada a carga, será feito o mapeamento dos atributos do metadado do Data Warehouse com os atributos do metadado do HBase. Este mapeamento será armazenado em um modelo de dados junto ao Data Warehouse. Para realizar o mapeamento, uma interface especifica se encarrega de listar os atributos contidos no metamodelo do HBase e os atributos contidos no metadado do Data Warehouse para então selecionar no HBase qual é o atributo correspondente no Data Warehouse. Com o mapeamento realizado, pode-se fazer a consulta buscando os dados tanto do Big Data como do Data Warehouse. A validação deste trabalho deve utilizar o Data Warehouse da empresa Sadig, disponibilizado no seu próprio site. Também deve utilizar um servidor com o Hadoop, HDFS, MapReduce e HBase instalados, além de ter instalado e configurado o Ontoclipping.


Apontamentos

  • Não há apontamentos.