Exportar registro bibliográfico

Desambiguação lexical de sentidos para o português por meio de uma abordagem multilíngue mono e multidocumento (2013)

  • Authors:
  • Autor USP: NÓBREGA, FERNANDO ANTÔNIO ASEVÊDO - ICMC
  • Unidade: ICMC
  • Sigla do Departamento: SCC
  • Subjects: PROCESSAMENTO DE LINGUAGEM NATURAL; LINGUÍSTICA COMPUTACIONAL; TRADUÇÃO AUTOMÁTICA
  • Keywords: Cenário multidocumento; Desambiguação lexical de sentidos; Disambiguation; Multidocument scenario; Word sense; Word Sense Disambiguation; WordNet; WordNet
  • Language: Português
  • Abstract: A ambiguidade lexical é considerada uma das principais barreiras para melhoria de aplicações do Processamento de Língua Natural (PLN). Neste contexto, tem-se a área de Desambiguação Lexical de Sentido (DLS), cujo objetivo é desenvolver e avaliar métodos que determinem o sentido correto de uma palavra em um determinado contexto por meio de um conjunto finito de possíveis significados. A DLS é empregada, principalmente, no intuito de prover recursos e ferramentas para diminuir problemas de ambiguidade e, consequentemente, contribuir para melhorias de resultados em outras áreas do PLN. Para o Português do Brasil, pouco se tem pesquisado nesta área, havendo alguns trabalhos bem específicos de domínio. Outro fator importante é que diversas áreas do PLN engajam-se no cenário multidocumento, onde a computação é efetuada sobre uma coleção de textos, todavia, não há¡ relato de trabalhos de DLS direcionados a este cenário, tampouco experimentos de desambiguação neste domínio. Portanto, neste trabalho de mestrado, objetivou-se o desenvolvimento de métodos de DLS de domínio geral voltado à língua Portuguesa do Brasil e o desenvolvimento de algoritmos de desambiguação que façam uso de informações multidocumento, bem como a experimentação e avaliação destes no cenário multidocumento. Para tanto, a fim de subsidiar experimentos, desenvolvimento e avaliação deste projeto, anotou-se manualmente o córpus CSTNews, caracterizado como um córpus multidocumento, utilizando a WordNet de Princetoncomo repositório de sentidos, que organiza os significados por meio de conjuntos de sinônimos ( synsets) e relações linguísticas entre estes. Foram desenvolvidos quatro métodos de DLS e algumas variações, sendo: um método heurístico (para aferir valores de baseline); variações do algoritmo de Lesk (1986); adaptação do algoritmo de Mihalcea and Moldovan (1999); e uma variação do método de Lesk para o cenário multidocumento. Foram realizados três experimentos para avaliação dos métodos, cujos objetivos foram: determinar o desempenho geral dos algoritmos em todo o córpus; avaliar a qualidade de desambiguação de palavras mais ambíguas no córpus; e verificar o ganho de qualidade da desambiguação ao empregar informação multidocumento. Após estes experimentos, pôde-se observar que o método heurístico apresenta um melhor resultado geral. Contudo, é importante ressaltar que a maioria das palavras anotadas no córpus tiveram apenas um synset, que, normalmente, era o mais frequente, o que, consequentemente, apresenta um cenário mais propício ao método heurístico. Outro fato importante foi que, neste cenário, a diferença de desempenho entre o método de DLS multidocumento e o heurístico é estatisticamente irrelevante. Jà para a desambiguação de palavras mais ambíguas, o método heurístico foi inferior, evidenciando que, para a desambiguação de palavras mais ambíguas, são necessários métodos mais sofisticados de DLS. Por fim, verificou-se que a utilização de informação multidocumentoauxilia o processo de desambiguação. As contribuições deste trabalho podem ser agrupadas entre teóricas e técnicas. Nas teóricas, tem-se a investigação e análises da DLS no cenário multidocumento. Entre as contribuições técnicas, foram desenvolvidos métodos de DLS, um córpus anotado e uma ferramenta de anotação direcionados à língua Portuguesa do Brasil, que podem avançar as pesquisas em DLS para o idioma
  • Imprenta:
  • Data da defesa: 28.05.2013
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      NÓBREGA, Fernando Antônio Asevêdo; PARDO, Thiago Alexandre Salgueiro. Desambiguação lexical de sentidos para o português por meio de uma abordagem multilíngue mono e multidocumento. 2013.Universidade de São Paulo, São Carlos, 2013. Disponível em: < http://www.teses.usp.br/teses/disponiveis/55/55134/tde-28082013-145948/ >.
    • APA

      Nóbrega, F. A. A., & Pardo, T. A. S. (2013). Desambiguação lexical de sentidos para o português por meio de uma abordagem multilíngue mono e multidocumento. Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-28082013-145948/
    • NLM

      Nóbrega FAA, Pardo TAS. Desambiguação lexical de sentidos para o português por meio de uma abordagem multilíngue mono e multidocumento [Internet]. 2013 ;Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-28082013-145948/
    • Vancouver

      Nóbrega FAA, Pardo TAS. Desambiguação lexical de sentidos para o português por meio de uma abordagem multilíngue mono e multidocumento [Internet]. 2013 ;Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-28082013-145948/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2021