AVALIAÇÃO DE EXPRESSÕES TEMPORAIS EM DOCUMENTOS PARA CLIPAGEM ELETRÔNICA

EDUARDO KROTH, CHARLES AUGUSTO GOETTERT

Resumo


Com base na atividade de clipping, que consiste na busca, recorte e armazenamento de notícias, vinculadas em diferentes meios de comunicação, formando um apanhado de recortes sobre um ou diversos assuntos que atendam a um interesse, foi desenvolvido no trabalho de conclusão de Claudio Omar Correa Carvalho Junior (2012), a ferramenta OntoClipping, que permite automatizar tal atividade. Desta forma, o trabalho aqui desenvolvido consiste no aprimoramento da ferramenta OntoClipping, através da avaliação das expressões temporais (ETs) dos documentos e otimização da indexação e consulta das informações coletadas no processo de clipping. No conteúdo de um documento, pode-se conter datas expressas (15 de outubro de 1990), como também expressões temporais (ontem, mês passado) que, quando tratadas, viabilizam a construção de métodos para aprimoramento do motor de busca e o aumento da precisão na recuperação de informações. O objetivo deste trabalho é auxiliar o usuário na busca por informação, tornando os resultados da ferramenta mais precisos quando aspectos temporais forem incluídos nas consultas, possibilitando a qualificação da base de dados do OntoClipping com referências temporais. Com a utilização de técnicas como expressões regulares (REGEX) e definições de marcadores temporais (TIMEX), foi desenvolvido um componente de software responsável pela identificação, classificação e extração das expressões temporais dos documentos. O desenvolvimento foi realizado em Java™, linguagem de programação na qual o OntoClipping foi implementado, que atende as necessidades da aplicação e permite melhor integração entre o trabalho aqui descrito e a ferramenta já criada. Também foram realizadas adaptações no OntoClipping. Começando pela alimentação do componente de software com dados da varredura do motor de busca, depois as informações resultantes do processamento efetuado pelo componente foram armazenadas na base de dados criada com a ferrramenta MySql™, o que necessitou a adequação do modelo de dados a ser utilizado. Por fim, os métodos de indexação foram ajustados para suportar as novas referências temporais atreladas aos recortes e a interface de consulta e interação com o usuário foi redefinida para permitir uma definição precisa nos aspectos temporais de consulta. Para a validação das funcionalidades principais foi construído manualmente um corpus - corpus linguístico é o conjunto de textos escritos e registros orais em uma determinada língua e que serve como base de análise - coletado de sites de notícias em português. Este corpus foi examinado e suas expressões temporais classificadas. Os testes executados até o momento identificaram 68% das expressões temporais do corpus e 100% de acerto na classificação das mesmas. Consultas com aspectos temporais foram elaboradas baseadas em possíveis diferentes necessidades do utilizador da ferramenta, tendo como objetivo verificar a efetividade do novo modelo de consulta que em 32% das buscas teve resultados mais adequados aos interesses dos usuários em comparação com a versão anterior do OntoClipping. Assim, conclui-se que o trabalho teve êxito no seu propósito ao apresentar resultados satisfatórios através da avaliação temporal dos conteúdos coletados, bem como da apresentação de resultados mais qualificados para o usuário.


Apontamentos

  • Não há apontamentos.