Word co-occurrence network analysis using Word Embedding (2024)
- Authors:
- Autor USP: QUISPE, LAURA VANESSA CRUZ - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- DOI: 10.11606/T.55.2024.tde-16012025-155108
- Subjects: REDES COMPLEXAS; RECONHECIMENTO DE TEXTO; PROCESSAMENTO DE LINGUAGEM NATURAL; ANÁLISE DE TEXTO
- Keywords: Análise de redes; Classificação de texto; Complex networks; Network analysis; Redes de co-occorrencia de palavras; Text classification; Word co-occurrence networks; Word embeddings; Word embeddings
- Agências de fomento:
- Language: Inglês
- Abstract: Estudos recentes na literatura demonstram que a linguagem humana pode ser modelada de maneira eficaz como uma rede complexa, comumente referida como uma rede de coocorrência de palavras. Essas redes exibem características típicas de redes livres de escala e de mundos pequenos, alinhando-se aos conceitos fundamentais da teoria das redes. O uso de redes de coocorrência de palavras na classificação de textos tem mostrado notável sucesso, principalmente devido à sua capacidade de capturar as propriedades estruturais e sintáticas de um texto, sem a necessidade de parsers que requerem um conhecimento mais profundo da língua. No entanto, o uso crescente de word embeddings em várias aplicações ressalta a importância de integrar informações contextuais e semânticas, que as redes de coocorrência de palavras, em sua forma tradicional, podem não conter. Nesta pesquisa, propomos estender a modelagem das redes de coocorrência de palavras, incorporando dados de embeddings para gerar arestas virtuais, unificando assim elementos sintáticos, semânticos e contextuais dentro da mesma rede. Essa abordagem visa melhorar vários aspectos da classificação de textos, particularmente em termos de qualidade, robustez e adaptabilidade a textos curtos, que muitas vezes apresentam desafios únicos. Devido à generalidade do modelo proposto e à natureza flexível dos embeddings, acreditamos que essas redes podem avançar nossa compreensão sobre como os word embeddings operam dentro das estruturas de redescomplexas. Os resultados de nossos experimentos revelam que o uso de arestas virtuais geradas a partir de embeddings como GloVe, Word2Vec e FastText aumenta o poder discriminativo da rede, melhorando significativamente o desempenho na classificação de textos. Além disso, descobrimos que os resultados mais otimizados são alcançados quando as stop-words são mantidas e uma simples estratégia de limiarização global é aplicada para estabelecer as arestas virtuais. Ademais, incorporar word embeddings nessas redes não apenas as melhora, mas também mantém um alto nível de informatividade, permitindo que a rede diferencie melhor entre textos humanos e textos sem sentido, tanto em textos curtos quanto longos. Finalmente, a combinação de word embeddings com a filtragem de stop-words proporciona à rede uma riqueza semântica, conferindo a capacidade de capturar informações semânticas e de contexto dos textos. No entanto, a manutenção do embedding sem a filtragem de stop-words preserva a capacidade de capturar a estrutura sintática subjacente, possibilitando a identificação das propriedades linguísticas de diferentes línguas. Essa abordagem acrescenta robustez às redes de coocorrência de palavras, preservando suas capacidades sintáticas iniciais sem ser comprometida pela adição de arestas virtuais.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2024
- Data da defesa: 13.11.2024
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
QUISPE, Laura Vanessa Cruz. Word co-occurrence network analysis using Word Embedding. 2024. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2024. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16012025-155108/. Acesso em: 29 dez. 2025. -
APA
Quispe, L. V. C. (2024). Word co-occurrence network analysis using Word Embedding (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16012025-155108/ -
NLM
Quispe LVC. Word co-occurrence network analysis using Word Embedding [Internet]. 2024 ;[citado 2025 dez. 29 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16012025-155108/ -
Vancouver
Quispe LVC. Word co-occurrence network analysis using Word Embedding [Internet]. 2024 ;[citado 2025 dez. 29 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16012025-155108/
Informações sobre o DOI: 10.11606/T.55.2024.tde-16012025-155108 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
