Usando redes complexas e processamento de línguas naturais para caracterizar e classificar itens científicos (2023)
- Authors:
- Autor USP: TOHALINO, JORGE ANDONI VALVERDE - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- DOI: 10.11606/T.55.2023.tde-11042023-090221
- Subjects: REDES COMPLEXAS; PROCESSAMENTO DE LINGUAGEM NATURAL
- Keywords: Análise bibliométrica; Análise cienciométrica; Bibliometric analysis; Classificação de projetos de pesquisa; Complex networks; Extração de palavras-chave; Keyword extraction; Natural language processing; Processamento de linguagem natural; Research grant classification; Scientometric analysis
- Agências de fomento:
- Language: Português
- Abstract: Processamento de Linguagem Natural (PLN) surgiu como uma área crítica de estudo para analisar grandes quantidades de dados textuais. No entanto, com o crescimento exponencial de big data, a análise de textos de diferentes tipos e tamanhos tornou-se mais desafiadora. Métodos existentes podem funcionar bem para conjuntos de dados específicos, mas podem não funcionar de maneira ideal para outras aplicações de texto. Por exemplo, analisar textos curtos, como títulos ou resumos de artigos científicos, pode ser desafiador porque esses textos podem conter uma quantidade limitada de informações, tornando difícil extrair insights valiosos usando abordagens de PLN tradicionais. Nesta tese, propomos uma nova metodologia que integra PLN, Redes Complexas (RC) e cienciometria/bibliometria para classificar e extrair tópicos importantes em textos científicos. Combinamos os conceitos de cada área de diversas maneiras para as tarefas de classificação de propostas de projetos de pesquisa e extração de palavras-chave. As abordagens de PLN forneceram diferentes maneiras de obter representações matemáticas de palavras e textos. Por exemplo, as representações vetoriais de palavras foram úteis para encontrar relações semânticas e contextuais para extração de palavras-chave, enquanto a representação vetorial de textos completos foi usada para tarefas de classificação. Também usamos abordagens baseadas em redes complexas para modelar relacionamentos entre textos como redes. Isso nos permite extrairinformações relevantes por meio de propriedades estruturais e topológicas de redes. Em seguida, as métricas de centralidade de rede ajudaram a encontrar as palavras mais importantes em resumos e artigos de pesquisa, enquanto os métodos de detecção de comunidades foram eficientes em encontrar grupos de resumos de artigos com conteúdo semelhante. Também usamos conceitos de cienciometria e bibliometria para dois propósitos. Primeiro, extraímos características bibliométricas de pesquisadores brasileiros para a tarefa de classificação de propostas de projetos de pesquisa. Também usamos os padrões de citação de artigos científicos como fonte importante de informação para auxiliar nossa abordagem de extração de palavras-chave. Nossa pesquisa demonstra a importância de usar várias metodologias de diferentes áreas para extrair informações valiosas de textos curtos. A metodologia proposta nesta pesquisa pode ser usada posteriormente para outras aplicações de PLN e mineração de textos, como classificação de textos, agrupamento de textos e sumarização de documentos, especialmente quando os textos-alvo são pequenos e limitados em conteúdo
- Imprenta:
- Publisher place: São Carlos
- Date published: 2023
- Data da defesa: 26.01.2023
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
TOHALINO, Jorge Andoni Valverde. Usando redes complexas e processamento de línguas naturais para caracterizar e classificar itens científicos. 2023. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2023. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-11042023-090221/. Acesso em: 30 set. 2024. -
APA
Tohalino, J. A. V. (2023). Usando redes complexas e processamento de línguas naturais para caracterizar e classificar itens científicos (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-11042023-090221/ -
NLM
Tohalino JAV. Usando redes complexas e processamento de línguas naturais para caracterizar e classificar itens científicos [Internet]. 2023 ;[citado 2024 set. 30 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-11042023-090221/ -
Vancouver
Tohalino JAV. Usando redes complexas e processamento de línguas naturais para caracterizar e classificar itens científicos [Internet]. 2023 ;[citado 2024 set. 30 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-11042023-090221/ - Extractive document summarization using complex networks
- Using word embedding to detect keywords in texts modeled as complex networks
- Using citation networks to evaluate the impact of text length on keyword extraction
- On predicting research grants productivity via machine learning
- Using virtual edges to improve the discriminability of co-occurrence text networks
- Analyzing the relationship between text features and grants productivity
Informações sobre o DOI: 10.11606/T.55.2023.tde-11042023-090221 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas