Extractive document summarization using complex networks (2018)
- Authors:
- Autor USP: TOHALINO, JORGE ANDONI VALVERDE - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- Subjects: REDES COMPLEXAS; PROCESSAMENTO DE LINGUAGEM NATURAL; INTELIGÊNCIA ARTIFICIAL
- Keywords: Artificial intelligence; Automatic summarization; Complex networks; Natural language processing; Sumarização automática
- Agências de fomento:
- Language: Inglês
- Abstract: Devido à grande quantidade de informações textuais disponíveis na Internet, a tarefa de sumarização automática de documentos ganhou importância significativa. A sumarização de documentos tornou-se importante porque seu foco é o desenvolvimento de técnicas destinadas a encontrar conteúdo relevante e conciso em grandes volumes de informação sem alterar seu significado original. O objetivo deste trabalho de Mestrado é usar os conceitos da teoria de grafos para o resumo extrativo de documentos para Sumarização mono-documento (SDS) e Sumarização multi-documento (MDS). Neste trabalho, os documentos são modelados como redes, onde as sentenças são representadas como nós com o objetivo de extrair as sentenças mais relevantes através do uso de algoritmos de ranqueamento. As arestas entre nós são estabelecidas de maneiras diferentes. A primeira abordagem para o cálculo de arestas é baseada no número de substantivos comuns entre duas sentenças (nós da rede). Outra abordagem para criar uma aresta é através da similaridade entre duas sentenças. Para calcular a similaridade de tais sentenças, foi usado o modelo de espaço vetorial baseado na ponderação Tf-Idf e word embeddings para a representação vetorial das sentenças. Além disso, fazemos uma distinção entre as arestas que vinculam sentenças de diferentes documentos (inter-camada) e aquelas que conectam sentenças do mesmo documento (intra-camada) usando modelos de redes multicamada para a tarefa de Sumarização multi-documento. Nestaabordagem, cada camada da rede representa um documento do conjunto de documentos que será resumido. Além das medições tipicamente usadas em redes complexas como grau dos nós, coeficiente de agrupamento, caminhos mais curtos, etc., a caracterização da rede também é guiada por medições dinâmicas de redes complexas, incluindo simetria, acessibilidade e tempo de absorção. Os resumos gerados foram avaliados usando diferentes corpus para Português e Inglês. A métrica ROUGE-1 foi usada para a validação dos resumos gerados. Os resultados sugerem que os modelos mais simples, como redes baseadas em Noun e Tf-Idf, obtiveram um melhor desempenho em comparação com os modelos baseados em word embeddings. Além disso, excelentes resultados foram obtidos usando a representação de redes multicamada de documentos para MDS. Finalmente, concluímos que várias medidas podem ser usadas para melhorar a caracterização de redes para a tarefa de sumarização.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2018
- Data da defesa: 15.06.2018
-
ABNT
TOHALINO, Jorge Andoni Valverde. Extractive document summarization using complex networks. 2018. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2018. Disponível em: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-24102018-155954/. Acesso em: 10 nov. 2024. -
APA
Tohalino, J. A. V. (2018). Extractive document summarization using complex networks (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-24102018-155954/ -
NLM
Tohalino JAV. Extractive document summarization using complex networks [Internet]. 2018 ;[citado 2024 nov. 10 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-24102018-155954/ -
Vancouver
Tohalino JAV. Extractive document summarization using complex networks [Internet]. 2018 ;[citado 2024 nov. 10 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-24102018-155954/ - Usando redes complexas e processamento de línguas naturais para caracterizar e classificar itens científicos
- Using word embedding to detect keywords in texts modeled as complex networks
- On predicting research grants productivity via machine learning
- Using citation networks to evaluate the impact of text length on keyword extraction
- Using virtual edges to improve the discriminability of co-occurrence text networks
- Analyzing the relationship between text features and grants productivity
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas