Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português (2024)
- Authors:
- Autor USP: FAGUNDES, MATHEUS JOSÉ GARCIA - EACH
- Unidade: EACH
- DOI: 10.11606/D.100.2024.tde-22072024-160036
- Subjects: APRENDIZADO COMPUTACIONAL; FAKE NEWS; PROCESSAMENTO DE LINGUAGEM NATURAL; LÉXICO; MORFOSSINTAXE; SINTAXE
- Keywords: Automatic Detection of Fake News; Detecção Automática de Notícias Falsas; Morfossintático; Morphosyntactic; Sintático; Syntactic
- Agências de fomento:
- Language: Português
- Abstract: As notícias falsas são um problema crítico para a sociedade, na medida em que os danos já podem ser vistos em várias partes dela, como democracia e saúde. A medida que as notícias falsas se multiplicam em quantidade e velocidade de propagação, identificá-las através de uma verificação manual de fatos torna-se impraticável. Portanto, um mecanismo de detecção automático de notícias falsas permitiria mitigar o problema. Neste cenário de detecção automática de notícias falsas, embora amplamente explorado na literatura, os trabalhos em sua maioria carecem de demonstrar a capacidade preditiva em corpora que não fizeram parte do treinamento. A fim de contribuir para esse assunto, o presente trabalho teve como objetivo avaliar a capacidade de generalização de classificadores de notícias falsas. Para tal, os modelos propostos foram treinados e avaliados em dois corpora anotados em português, utilizando avaliação intra-corpus tradicional com avaliação cruzada e uma avaliação inter-corpora, treinando em um corpus e avaliando no outro. Na tarefa de classificação, foi explorado informações léxicas, utilizado BERTimbau como modelo de língua, e informações morfossintática, utilizando Part of Speech. O desempenho do modelo foi avaliado em diferentes configurações, incluindo o uso de apenas informações léxicas, apenas informações morfossintáticas e ambas combinadas com a finalidade de encontrar o melhor conjunto.Os resultados demonstraram que os modelos léxicos baseados em BERTimbau foram os mais eficazes na detecção de notícias falsas. O BERTimbau com ajuste fino obteve a melhor acurácia nos dois corpora e um dos melhores F1-scores e o melhor Macro-F1 no outro corpus. No entanto, o desempenho foi significativamente inferior nas avaliações inter-corpus, indicando uma dificuldade em transferir aprendizado de um corpus para outro. Em contraste, a informação morfossintática não se mostrou muito promissora na classificação intra-corpus, contrariando as expectativas, e também não se mostrou útil na transferência de aprendizado entre corpora
- Imprenta:
- Data da defesa: 24.05.2024
- Status:
- Artigo publicado em periódico de acesso aberto (Gold Open Access)
- Versão do Documento:
- Versão publicada (Published version)
- Acessar versão aberta:
-
ABNT
FAGUNDES, Matheus José Garcia. Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português. 2024. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2024. Disponível em: https://teses.usp.br/teses/disponiveis/100/100131/tde-22072024-160036/. Acesso em: 06 maio 2026. -
APA
Fagundes, M. J. G. (2024). Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://teses.usp.br/teses/disponiveis/100/100131/tde-22072024-160036/ -
NLM
Fagundes MJG. Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português [Internet]. 2024 ;[citado 2026 maio 06 ] Available from: https://teses.usp.br/teses/disponiveis/100/100131/tde-22072024-160036/ -
Vancouver
Fagundes MJG. Combinando características léxicas e morfossintáticas para a detecção de notícias falsas em português [Internet]. 2024 ;[citado 2026 maio 06 ] Available from: https://teses.usp.br/teses/disponiveis/100/100131/tde-22072024-160036/
Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).
Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
