ANÁLISE E CLASSIFICAÇÃO DE CONTEÚDO TEXTUAL

DANIELA BAGATINI, JOAO LUIS FARINON

Resumo


O objetivo deste trabalho é desenvolver uma solução estatística de Processamento de Linguagem Natural (PLN) para analisar textos em língua portuguesa de páginas da web. Tal solução irá compor a aplicação MaRE - Mapeamento de Rota de Estudo (Teixeira, 2015) e incrementar os comportamentos do agente inteligente, que é responsável por identificar conteúdos web relevantes em um cenário de estudo. As pesquisas na área de Processamento da Linguagem Natural, baseadas em autores como Stuart J. Russell, Peter Norvig, Nils John Nilsson, James F. Allen, têm produzido descobertas significativas, no entanto, são bastante complexas e os resultados ainda são iniciais, frente a isso, percebe-se que este é um ótimo problema de investigação, não só pela busca em tornar possível a comunicação entre seres humanos e computadores de forma mais natural, mas por sua ampla aplicação em contextos diversos que envolvam a linguagem. Neste trabalho, optou-se por analisar textos, dando ênfase para a análise léxica e realizando uma abordagem estatística, com o objetivo de extrair as palavras mais relevantes de um determinado texto. Portanto, procura-se demonstrar que com uso de soluções de PLN o agente pode melhorar, de forma significativa, sua tarefa de identificação de textos relevantes ao propósito de uma pesquisa que tem o espaço web como referência de estudo. A proposta para o processamento do conteúdo textual envolve três etapas: a manipulação da linguagem natural, a análise e a classificação. O enfoque do desenvolvimento deste trabalho de conclusão será para a análise de textos obtidos através de websites que possuem marcações HTML espalhados em seu conteúdo, porém vale ressaltar que textos normais (sem marcações HTML) também serão tratados normalmente. A etapa de manipulação do conteúdo textual corresponde a: eliminação de tags HTML do conteúdo de uma página web; remoção de palavras que não iniciem com letras (exemplo: números ou outros caracteres); utilização de técnica de tokenização, em que o texto será transformado em tokens, remoção de stopwords (alguns exemplos de stopwords são: as, e, os, de, para, palavras acabam sendo removidas, pois são irrelevantes para o processamento do texto); normalização dos tokens para letras minúsculas; redução dos tokens para o seu respectivo radical (parte da palavra que porta a base de significação das palavras dadas, também conhecido como morfema lexical). Uma vez realizada a manipulação inicial do texto, para a etapa de análise será utilizado o critério de similaridade e relevância, aplicando um valor de peso para cada palavra do texto analisado, conforme a fórmula matemática de frequência relativa. Para a etapa de classificação de relevância das palavras em relação ao texto analisado, será utilizado como critério o valor de peso atribuído para cada palavra, que irá definir a qual grupo de classificação cada uma fará parte e, a fim de definir o intervalo de classificação de cada grupo, será estipulado um ponto de corte.


Apontamentos

  • Não há apontamentos.