Exportar registro bibliográfico

Sumarização Automática de Atualização para a língua portuguesa (2017)

  • Authors:
  • Autor USP: NóBREGA, FERNANDO ANTôNIO ASEVêDO - ICMC
  • Unidade: ICMC
  • Sigla do Departamento: SCC
  • Subjects: PROCESSAMENTO DE LINGUAGEM NATURAL; LÍNGUA PORTUGUESA; LINGUÍSTICA COMPUTACIONAL; PROCESSAMENTO DE TEXTO
  • Keywords: Compressão sentencial; Compressive summarization; Sentence compression; Sumarização automática de atualização; Sumarização compressiva; Update summarization
  • Language: Português
  • Abstract: O enorme volume de dados textuais disponível na web caracteriza-se como um cenário ideal para inúmeras aplicações do Processamento de Língua Natural, tal como a tarefa da Sumarização Automática de Atualização (SAA), que tem por objetivo a geração automática de resumos a partir de uma coleção textual admitindo-se que o leitor possui algum conhecimento prévio sobre os textos-fonte. Dessa forma, um bom resumo de atualização deve ser constituído pelas informações mais relevantes, novas e atualizadas com relação ao conhecimento prévio do leitor. Essa tarefa implica em diversos desafios, sobretudo nas etapas de seleção e síntese de conteúdo para o sumário. Embora existam inúmeras abordagens na literatura, com diferentes níveis de complexidade teórica e computacional, pouco dessas investigações fazem uso de algum conhecimento linguístico profundo, que pode auxiliar a identificação de conteúdo mais relevante e atualizado. Além disso, os métodos de sumarização comumente empregam uma abordagem de síntese extrativa, na qual algumas sentenças dos textos-fonte são selecionadas e organizadas para compor o sumário sem alteração de seu conteúdo. Tal abordagem pode limitar a informatividade do sumário, uma vez que alguns segmentos sentenciais podem conter informação redundante ou irrelevante ao leitor. Assim, esforços recentes foram direcionados à síntese compressiva, na qual alguns segmentos das sentenças selecionadas para o sumário são removidos previamente à inserção no sumário. Nessecenário, este trabalho de doutorado teve por objetivo a investigação do uso de conhecimentos linguísticos, como a Teoria Discursiva Multidocumento (CST), Segmentação de Subtópicos e Reconhecimento de Entidades Nomeadas, em distintas abordagens de seleção de conteúdo por meio das sínteses extrativas e compressivas visando à produção de sumários de atualização mais informativos. Tendo a língua Portuguesa como principal objeto de estudo, foram organizados três novos córpus, o CSTNews-Update, que viabiliza experimentos de SAA, e o PCSC-Pares e G1-Pares, para o desenvolvimento/avaliação de métodos de Compressão Sentencial. Ressalta-se que os experimentos de sumarização foram também realizados para a língua inglesa. Após as experimentações, observou-se que a Segmentação de Subtópicos foi mais efetiva para a produção de sumários mais informativos, porém, em apenas poucas abordagens de seleção de conteúdo. Além disso, foram propostas algumas simplificações para o método DualSum por meio da distribuição de Subtópicos. Tais métodos apresentaram resultados muito satisfatórios com menor complexidade computacional. Visando a produção de sumários compressivos, desenvolveram-se inúmeros métodos de Compressão Sentencial por meio de algoritmos de Aprendizado de Máquina. O melhor método proposto apresentou resultados superiores a um trabalho do estado da arte, que faz uso de algoritmos de Deep Learning. Além dos resultados supracitados, ressalta-se que anteriormente a este trabalho, amaioria das investigações de Sumarização Automática para a língua Portuguesa foi direcionada à geração de sumários a partir de um (monodocumento) ou vários textos relacionados (multidocumento) por meio da síntese extrativa, sobretudo pela ausência se recursos que viabilizassem a expansão da área de Sumarização Automática para esse idioma. Assim, as contribuições deste trabalho engajam-se em três campos, nos métodos de SAA propostos com conhecimento linguísticos, nos métodos de Compressão Sentencial e nos recursos desenvolvidos para a língua Portuguesa.
  • Imprenta:
  • Data da defesa: 12.12.2017
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      NÓBREGA, Fernando Antônio Asevêdo; PARDO, Thiago Alexandre Salgueiro. Sumarização Automática de Atualização para a língua portuguesa. 2017.Universidade de São Paulo, São Carlos, 2017. Disponível em: < http://www.teses.usp.br/teses/disponiveis/55/55134/tde-30072018-090806/ >.
    • APA

      Nóbrega, F. A. A., & Pardo, T. A. S. (2017). Sumarização Automática de Atualização para a língua portuguesa. Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-30072018-090806/
    • NLM

      Nóbrega FAA, Pardo TAS. Sumarização Automática de Atualização para a língua portuguesa [Internet]. 2017 ;Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-30072018-090806/
    • Vancouver

      Nóbrega FAA, Pardo TAS. Sumarização Automática de Atualização para a língua portuguesa [Internet]. 2017 ;Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-30072018-090806/


Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2021