DESENVOLVIMENTO DE UM AMBIENTE DE CONSULTAS EM BIG DATA CONSIDERANDO UM ESQUEMA ESTRELA DE DADOS

Rodrigo Frantz, Eduardo Kroth

Resumo


A aplicação da computação nas mais diversas áreas do conhecimento, sempre foi relacionada ao processamento de dados. Tendo em vista essa imensa quantidade de dados e informações geradas, atualmente, surge a necessidade de se buscar formas de representar toda essa gama de informações que podem estar persistidas de forma estruturada, semiestruturada ou sem nenhuma organização. Surge então o termo Big Data, o qual se aplica a todo este potencial de dados que não são passíveis de análise ou processamento, através dos métodos e ferramentas tradicionais. No entanto, formas para representar essas informações devem ser implementadas para auxiliar as organizações na análise desses dados. Levando em consideração que a realização de análises em sistemas de apoio a decisão têm como ponto central de sua arquitetura de processamento um Data Warehouse e que a configuração que regula a organização dos fatos e das dimensões para armazenamento corresponde geralmente a um esquema estrela de dados, este trabalho visa especificar diretrizes para facilitar a integração das informações contidas nas dimensões do esquema com as armazenadas no Big Data. Através do mapeamento dos atributos das dimensões do esquema estrela com os atributos do Big Data, será possível realizar consultas integradas entre estas duas estruturas. Para desenvolver esta solução, o sistema de banco de dados utilizado pelo Big Data é o Cassandra, um banco de dados não relacional e para a modelagem do Data Warehouse no esquema estrela é usado um banco relacional, o MySQL. Entretanto, antes de ser feita a análise para integração, é preciso carregar o Cassandra com as informações capturadas da internet. Para isto, é utilizado a ferramenta Ontoclipping, desenvolvida no trabalho de conclusão de Claudio Omar Corrêa Carvalho Jr. O conteúdo coletado e indexado pelo Ontoclipping será armazenado no Cassandra. Após realizada a carga dos dados, será feito o mapeamento dos atributos do Data Warehouse com os atributos do Cassandra. Para que seja possível realizar este mapeamento, uma interface específica se encarrega de listar os atributos contidos no Data Warehouse. Através da seleção destes atributos, o ambiente realiza a consulta no Cassandra e apresenta os resultados referentes aos atributos selecionados. A validação deste trabalho deve utilizar um Data Warehouse modelado a partir de um esquema estrela de dados para uma empresa de comércio exterior. Também deve ser instalado e configurado o Ontoclipping, o Cassandra e o MySQL.


Apontamentos

  • Não há apontamentos.