APLICAÇÃO DE MINERAÇÃO DE TEXTO COM O APOIO DE ONTOLOGIAS PARA EXTRAÇÃO DE CONHECIMENTO EM BASES DE DADOS TEXTUAIS

EVANDRO FRANZEN, IVAN LUIS SUPTITZ

Resumo


Este trabalho tem como objetivo propor uma ferramenta para extrair conhecimento de bases de dados textuais, mais especificamente de bases de empresas de tecnologia da informação que armazenam dados de chamados de suporte, documentação de projetos e documentação técnica, visando apoiar a resolução de novos problemas. Partindo do pressuposto de que cerca de 80% das informações são persistidas pelas organizações na forma de texto puro, recuperar conhecimento deste ambiente torna-se uma tarefa mais complexa pelo fato de não se dispor de uma base de dados estruturados que permitam a aplicação de algoritmos de busca e indexação convencionais. Desta forma, faz-se necessário analisar técnicas de mineração de texto para recuperação da informação relevante. Ao mesmo tempo, disponibilizar uma interface de busca indexada simples, ainda que totalmente funcional, nem sempre atende à demanda de informação dos usuários. Por exemplo: o usuário deseja obter uma determinada informação e submete uma consulta especificando termos que ele imagina estarem presentes no texto, entretanto a informação desejada não é recuperada, pelo motivo de que ela está armazenada por meio de sinônimos ou ainda termos totalmente distintos, mas que fazem sentido dentro daquele contexto. Para resolver este problema, é proposta uma busca apoiada por ontologias de forma a expandir as possibilidades das consultas. Ontologias são estruturas para representação do conhecimento que precisam ser mantidas por um especialista na área. Esta tarefa de manutenção poderia ser facilitada caso houvesse uma extração automática de padrões e uma classificação prévia de termos presentes em todo o texto a ser analisado. Visando prover esta automatização, é preciso buscar técnicas de classificação supervisionada e não supervisionada bem como ferramentas que já aplicam as mesmas. A maior motivação para este trabalho é a dificuldade que empresas pequenas têm de extrair informação relevante das suas bases de dados. Depois de finalizada, essa ferramenta será aplicada em uma empresa de TI substituindo a atual interface que serve de "Busca de conhecimento". Servirá de apoio a consultores, técnicos e desenvolvedores que trabalham com suporte a usuários de sistemas de informação. Durante o desenvolvimento do trabalho foi possível compreender a complexidade do tema proposto. Ao mesmo tempo, a revisão bibliográfica, o estudo de trabalhos relacionados e a análise das ferramentas auxiliaram a transformar a solução idealizada na proposta em algo menos abstrato. O atual estado de desenvolvimento da ferramenta já conta com as etapas de ETL (para extrair os dados das fontes de dados e salvar em um banco local no qual os mesmos são indexados), de indexação e uma interface de consulta ainda sem o apoio das ontologias. Como resultado parcial, já é possível submeter consultas simples, que retornam os resultados em um tempo similar ao indexador Apache Lucene. Fica como expectativa, até o final do trabalho, comparar a recuperação de informação com a influência da estrutura de ontologias, bem como a manutenção da mesma com o apoio da extração automática de padrões.


Apontamentos

  • Não há apontamentos.