FERRAMENTA PARA EXTRAÇÃO DE DADOS SEMI-ESTRUTURADOS PARA CARGA DE UM BIG DATA

EDUARDO KROTH, GABRIEL MERTEN BULSING

Resumo


O processo de tomada de decisão é de fundamental importância para as empresas e deve ser feito com o auxílio do maior número de informações possíveis. O objetivo do Big Data é justamente este, permitir que as empresas consigam analisar dados de diversas fontes, apresentando os resultados em um menor tempo de requisição possível, auxiliando assim as empresas no processo de tomada de decisões. Pode-se conceituar o Big Data como um conjunto de soluções tecnológicas capaz de trabalhar com dados em volume, variedade e velocidade até então inéditos. O seu foco principal é o grande armazenamento de dados e sua maior velocidade de informações. A principal base tecnológica para Big Data são os bancos de dados NoSQL, os quais foram projetados para manipular grandes volumes de dados com performance superior aos tradicionais sistemas gerenciadores de bancos de dados. Através da utilização de ontologias, pretende-se aprimorar e facilitar o trabalho de recuperação de informações realizado nas consultas dos usuários. Este trabalho tem como objetivo o desenvolvimento de uma ferramenta para a coleta de dados na web, para posterior carga em um Big Data. Para isso, serão aliadas técnicas para a recuperação da informação, como as ontologias e motores de busca, com os conceitos de banco de dados NoSQL para o armazenamento dos dados coletados. Pode-se dividir a estrutura do sistema em três etapas de forma resumida: a primeira etapa (modelagem) consiste em desenvolver um ambiente para identificação e modelagem de documentos semi-estruturados e não-estruturados provenientes da web. Nessa etapa também ocorre a modelagem de uma ontologia, para representar o conhecimento de acordo com necessidades apontadas por uma situação real. A construção da ontologia utilizada no projeto será realizada manualmente, e armazenada em um banco de dados. Na segunda etapa, será realizada a coleta de dados através de um motor de busca, bem como a indexação e o armazenamento em um banco de dados NoSQL. Para a coleta de dados semi-estruturados e não-estruturados na web, o robô de captura (web crawler), irá recuperar as informações alimentando a base de dados. O modelo de banco de dados escolhido foi o orientado a colunas, devido a uma grande variedade de ferramentas disponíveis para o auxilio na manipulação dos dados. Nessa etapa também ocorre a indexação do conteúdo coletado pelo web crawler. Na terceira etapa (consulta), é apresentada a possibilidade de serem realizadas consultas ao grande volume de dados armazenados no banco de dados NoSQL, através de uma interface amigável, possibilitando a exibição e análise dos resultados conforme a ontologia especificada. Com o objetivo de avaliar em um ambiente real os resultados obtidos através do sistema que será desenvolvido no decorrer deste trabalho, pretende-se realizar um estudo de caso. Para isso, a ferramenta será aplicada na empresa "Compumax", localizada em Santa Cruz do Sul, na qual o autor é funcionário há seis anos, trabalhando na área comercial. A empresa atua há quinze anos no comércio de informática e automação comercial, que é um mercado bastante dinâmico devido a diversos fatores externos, como a cotação do dólar por exemplo. Esse estudo de caso foi escolhido justamente por ser um mercado dinâmico, em que a análise de dados no contexto de Big Data pode se tornar um fator diferencial de mercado, auxiliando no processo de tomada de decisões.


Apontamentos

  • Não há apontamentos.