IMPLEMENTAÇÃO DE CRITÉRIOS DE QUALIDADE DE DADOS EM UM BIG DATA

EDUARDO KROTH, JEAN DA COSTA SERPA

Resumo


Introdução: Com o avanço da tecnologia, novas fontes de dados foram criadas e os sistemas de Data Warehouse precisaram adaptar-se para suprir a necessidade da análise de mais dados. Para poder usufruir do potencial das informações não estruturadas, criou-se o conceito de Big Data. Utilizando novas tecnologias, consegue-se processar e analisar grandes quantidades de dados estruturados e não estruturados em tempo real. Com a crescente demanda por informações, questões como a Qualidade de Dados devem ser consideradas pelas organizações. Objetivo: O objetivo principal deste trabalho é o desenvolvimento e implementação de métodos para atribuição de critérios qualitativos sobre uma base de dados de um Big Data. A solução tem como objetivo, com base nos critérios a serem descritos nesse trabalho, avaliar a qualidade dos dados em uma base de dados e apresentar os resultados das avaliações com o propósito de auxiliar na análise dos dados nas organizações e garantir que os dados que serão utilizados terão a devida relevância nas decisões. Metodologia: Inicialmente as métricas de Qualidade de Dados serão configuradas e armazenadas em um Banco de Dados para que a ferramenta possa utilizar esta base para consulta dos critérios. O Big Data será carregado com dados da internet e para isto será utilizado o programa Ontoclipping, desenvolvido no trabalho de conclusão de Claudio Omar Corrêa Carvalho Jr. Com a utilização do Ontoclipping será possível configurar uma base de conhecimento (Ontologias) para que seja possível representar áreas específicas para análise. Diante dos dados coletados e armazenados no Big Data, a ferramenta irá aplicar os critérios de Qualidade de Dados nos objetos do Big Data e apresentar ao usuário, através de uma interface os cálculos de cada critério sobre os objetos, com a finalidade de definir índices para cada métrica x objeto. Resultados Esperados: espera-se apresentar ao usuário a qualificação dos dados extraídos, com base na aplicação dos algoritmos propostos neste trabalho. Esta qualificação poderá ser exibida em forma de relatório, gráfico ou ainda em tabela, apresentando indicadores de qualidade de acordo com os critérios apresentados neste trabalho. Conclusão: As soluções de Big Data atualmente são as maiores responsáveis por auxiliar as empresas nas tomadas de decisões, principalmente empresas baseadas na internet, onde são necessárias quantidades enormes de informações. As métricas de Qualidade de Dados podem ser aplicadas tanto para bases de dados relacionais quanto não relacionais, no entanto, o desafio de aplicar os critérios de Qualidade de Dados em um ambiente de Big Data é de extrema complexidade. Primeiramente devido ao grande volume de dados e segundo, pelo fato de que existem diversas soluções no que diz respeito a forma de armazenamento de dados.


Apontamentos

  • Não há apontamentos.