Exportar registro bibliográfico

Summarizing multiple websites for automatic PT-BR wikipedia generation (2023)

  • Authors:
  • Autor USP: OLIVEIRA, ANDRÉ SEIDEL - EP
  • Unidade: EP
  • Sigla do Departamento: PCS
  • Subjects: INTELIGÊNCIA ARTIFICIAL; PROCESSAMENTO DE LINGUAGEM NATURAL; REDES NEURAIS
  • Language: Inglês
  • Abstract: A Wikipédia é uma importante fonte gratuita de conhecimento inteligível. Apesar disso, o portal em português do Brasil ainda carece de descrições para muitos assuntos. Em um esforço para expandir a Wikipédia brasileira, apresentamos PLSum, Portuguese Long Summarizer, um arcabouço para gerar resumos abstrativos no estilo da Wikipédia a partir de vários sítios (sites) descritivos. O arcabouço possui uma etapa extrativa seguida por uma abstrativa. Na etapa extrativa, extraem-se trechos de documentos sobre o tema de interesse e, na etapa abstrativa, ´e realizado um ajuste fino, buscando reescrever os trechos em um resumo coeso, correto e significativo. Em particular, para a etapa abstrativa, ajustamos e comparamos duas variações recentes da rede neural do tipo Transformer, a PTT5 e o Longformer. Já na etapa extrativa, inovamos ao propor um método baseado em agrupamento de representações semânticas vetoriais para seleção de sentenças relevantes. Para ajustar e avaliar os modelos, criamos uma base de dados para sumarização multi-documentos com milhares de exemplos, vinculando sítios de referência às páginas do Wikipédia. Nossos resultados mostram que é possível gerar resumos abstrativos significativos a partir do conteúdo da web em português do Brasil. Além disso, mostramos que o PLSum tem sucesso na aplicação da transferência de estilo de escrita, o que não é possível com as técnicas totalmente extrativas, predominantes na literatura. Por fim, nós também concluímos que o método de agrupamento de representações semânticas vetoriais possibilitou a extração de sentenças mais diversas na etapa extrativa.
  • Imprenta:
  • Data da defesa: 20.06.2023
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      OLIVEIRA, André Seidel. Summarizing multiple websites for automatic PT-BR wikipedia generation. 2023. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2023. Disponível em: https://www.teses.usp.br/teses/disponiveis/3/3141/tde-01032024-090345/pt-br.php. Acesso em: 28 set. 2024.
    • APA

      Oliveira, A. S. (2023). Summarizing multiple websites for automatic PT-BR wikipedia generation (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/3/3141/tde-01032024-090345/pt-br.php
    • NLM

      Oliveira AS. Summarizing multiple websites for automatic PT-BR wikipedia generation [Internet]. 2023 ;[citado 2024 set. 28 ] Available from: https://www.teses.usp.br/teses/disponiveis/3/3141/tde-01032024-090345/pt-br.php
    • Vancouver

      Oliveira AS. Summarizing multiple websites for automatic PT-BR wikipedia generation [Internet]. 2023 ;[citado 2024 set. 28 ] Available from: https://www.teses.usp.br/teses/disponiveis/3/3141/tde-01032024-090345/pt-br.php


Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2024