Exportar registro bibliográfico

Normalização textual de conteúdo gerado por usuário (2017)

  • Authors:
  • Autor USP: BERTAGLIA, THALES FELIPE COSTA - ICMC
  • Unidade: ICMC
  • Sigla do Departamento: SCC
  • Subjects: ANÁLISE DE TEXTO; PROCESSAMENTO DE LINGUAGEM NATURAL; TRADUÇÃO AUTOMÁTICA; LINGUÍSTICA APLICADA
  • Keywords: Análise de textos ruidosos; Conteúdo gerado por usuário; Noisy text analysis; Normalização textual; Text normalization; User-generated content
  • Language: Português
  • Abstract: Conteúdo Gerado por Usuário (CGU) é a denominação dada ao conteúdo criado de forma espontânea por indivíduos comuns, sem vínculos com meios de comunicação. Esse tipo de conteúdo carrega informações valiosas e pode ser explorado por diversas áreas do conhecimento. Muito do CGU é disponibilizado em forma de textos avaliações de produtos, comentários em fóruns sobre filmes e discussões em redes sociais são exemplos. No entanto, a linguagem utilizada em textos de CGU diverge, de várias maneiras, da norma culta da língua, dificultando seu processamento por técnicas de PLN. A linguagem de CGU é fortemente ligada à língua utilizada no cotidiano, contendo, assim, uma grande quantidade de ruídos. Erros ortográficos, abreviações, gírias, ausência ou mau uso de pontuação e de capitalização são alguns ruídos que dificultam o processamento desses textos. Diversos trabalhos relatam perda considerável de desempenho ao testar ferramentas do estado-daarte de PLN em textos de CGU. A Normalização Textual é o processo de transformar palavras ruidosas em palavras consideradas corretas e pode ser utilizada para melhorar a qualidade de textos de CGU. Este trabalho relata o desenvolvimento de métodos e sistemas que visam a (a) identificar palavras ruidosas em textos de CGU, (b) encontrar palavras candidatas a sua substituição, e (c) ranquear os candidatos para realizar a normalização. Para a identificação de ruídos, foram propostos métodos baseados em léxicos e em aprendizado de máquina, com redesneurais profundas. A identificação automática apresentou resultados comparáveis ao uso de léxicos, comprovando que este processo pode ser feito com baixa dependência de recursos. Para a geração e ranqueamento de candidatos, foram investigadas técnicas baseadas em similaridade lexical e word embeddings. Concluiu-se que o uso de word embeddings é altamente adequado para normalização, tendo atingido os melhores resultados. Todos os métodos propostos foram avaliados com base em um córpus de CGU anotado no decorrer do projeto, contendo textos de diferentes origens: fóruns de discussão, reviews de produtos e publicações no Twitter. Um sistema, Enelvo, combinando todos os métodos foi implementado e comparado a um outro sistema normalizador existente, o UGCNormal. Os resultados obtidos pelo sistema Enelvo foram consideravelmente superiores, com taxa de correção entre 67% e 97% para diferentes tipos de ruído, com menos dependência de recursos e maior flexibilidade na normalização.
  • Imprenta:
  • Data da defesa: 18.08.2017
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      BERTAGLIA, Thales Felipe Costa; NUNES, Maria das Graças Volpe. Normalização textual de conteúdo gerado por usuário. 2017.Universidade de São Paulo, São Carlos, 2017. Disponível em: < http://www.teses.usp.br/teses/disponiveis/55/55134/tde-10112017-170919/ >.
    • APA

      Bertaglia, T. F. C., & Nunes, M. das G. V. (2017). Normalização textual de conteúdo gerado por usuário. Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-10112017-170919/
    • NLM

      Bertaglia TFC, Nunes M das GV. Normalização textual de conteúdo gerado por usuário [Internet]. 2017 ;Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-10112017-170919/
    • Vancouver

      Bertaglia TFC, Nunes M das GV. Normalização textual de conteúdo gerado por usuário [Internet]. 2017 ;Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-10112017-170919/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2021