Summarizing multiple websites for automatic PT-BR wikipedia generation (2023)
- Authors:
- Autor USP: OLIVEIRA, ANDRÉ SEIDEL - EP
- Unidade: EP
- Sigla do Departamento: PCS
- Subjects: INTELIGÊNCIA ARTIFICIAL; PROCESSAMENTO DE LINGUAGEM NATURAL; REDES NEURAIS
- Language: Inglês
- Abstract: A Wikipédia é uma importante fonte gratuita de conhecimento inteligível. Apesar disso, o portal em português do Brasil ainda carece de descrições para muitos assuntos. Em um esforço para expandir a Wikipédia brasileira, apresentamos PLSum, Portuguese Long Summarizer, um arcabouço para gerar resumos abstrativos no estilo da Wikipédia a partir de vários sítios (sites) descritivos. O arcabouço possui uma etapa extrativa seguida por uma abstrativa. Na etapa extrativa, extraem-se trechos de documentos sobre o tema de interesse e, na etapa abstrativa, ´e realizado um ajuste fino, buscando reescrever os trechos em um resumo coeso, correto e significativo. Em particular, para a etapa abstrativa, ajustamos e comparamos duas variações recentes da rede neural do tipo Transformer, a PTT5 e o Longformer. Já na etapa extrativa, inovamos ao propor um método baseado em agrupamento de representações semânticas vetoriais para seleção de sentenças relevantes. Para ajustar e avaliar os modelos, criamos uma base de dados para sumarização multi-documentos com milhares de exemplos, vinculando sítios de referência às páginas do Wikipédia. Nossos resultados mostram que é possível gerar resumos abstrativos significativos a partir do conteúdo da web em português do Brasil. Além disso, mostramos que o PLSum tem sucesso na aplicação da transferência de estilo de escrita, o que não é possível com as técnicas totalmente extrativas, predominantes na literatura. Por fim, nós também concluímos que o método de agrupamento de representações semânticas vetoriais possibilitou a extração de sentenças mais diversas na etapa extrativa.
- Imprenta:
- Data da defesa: 20.06.2023
-
ABNT
OLIVEIRA, André Seidel. Summarizing multiple websites for automatic PT-BR wikipedia generation. 2023. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2023. Disponível em: https://www.teses.usp.br/teses/disponiveis/3/3141/tde-01032024-090345/pt-br.php. Acesso em: 28 set. 2024. -
APA
Oliveira, A. S. (2023). Summarizing multiple websites for automatic PT-BR wikipedia generation (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/3/3141/tde-01032024-090345/pt-br.php -
NLM
Oliveira AS. Summarizing multiple websites for automatic PT-BR wikipedia generation [Internet]. 2023 ;[citado 2024 set. 28 ] Available from: https://www.teses.usp.br/teses/disponiveis/3/3141/tde-01032024-090345/pt-br.php -
Vancouver
Oliveira AS. Summarizing multiple websites for automatic PT-BR wikipedia generation [Internet]. 2023 ;[citado 2024 set. 28 ] Available from: https://www.teses.usp.br/teses/disponiveis/3/3141/tde-01032024-090345/pt-br.php
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas