Exportar registro bibliográfico


Metrics:

Desambiguação léxica por reutilização de dicionários (2024)

  • Authors:
  • Autor USP: TERCEROS, HECTOR MONTENEGRO - IME
  • Unidade: IME
  • Sigla do Departamento: MAC
  • DOI: 10.11606/D.45.2024.tde-19122024-170223
  • Subjects: PROCESSAMENTO DE LINGUAGEM NATURAL; POLISSEMIA
  • Keywords: Desambiguação léxica; Natural language processing; Word sense disambiguation
  • Agências de fomento:
  • Language: Português
  • Abstract: Dentro da área de Processamento de Linguagem Natural, um problema central e ainda não resolvido é o de Desambiguação Léxica, que consiste em identificar o sentido exprimido por uma palavra polissêmica. Esse desafio é ainda agravado quando um texto possui mais de uma palavra polissêmica, permitindo várias interpretações do contexto. Nesse caso, uma boa solução é considerar a relação entre os possíveis sentidos das palavras ambíguas, escolhendo a combinação de sentidos com melhor proximidade semântica conjunta. Analisando um texto grande essa formulação rapidamente torna-se intratável computacionalmente pela quantidade de combinações a testar, de forma que adota-se uma heurística para aproximar uma boa solução: um grafo cujos vértices são os possíveis sentidos das palavras a se desambiguar, com arestas refletindo em seus pesos a proximidade semântica de cada par de sentidos. Com esse grafo, um algoritmo de centralidade pode escolher qual o sentido mais central de cada palavra ambígua, o que é equiparado à sua relevância semântica dentre os sentidos e portanto define a resposta do modelo. Outra solução no mesmo cenário, desenvolvida a partir dessa primeira, é escolher um caminho que passe uma única vez por cada palavra e maximize a proximidade semântica, numa variação do Problema do Caixeiro Viajante Generalizado. Embora essa metodologia já tenha trazido resultados interessantes na área, seu desempenho nunca atingiu valores satisfatórios, e um dos motivos para tal é aesparsidade de suas arestas: as medidas de proximidade semântica usadas até hoje não conseguem trazer essa informação para qualquer par de sentidos, e é comum que tragam um valor de proximidade para apenas uma pequena parcela das arestas de um grafo, atrapalhando o mecanismo de priorização ou impedindo que certos caminhos sejam considerados. Propomos então uma nova forma de calcular a proximidade entre pares de sentidos, inspirada na forma com que humanos lêem dicionários e entendem seus conceitos. Se uma definição inclui uma palavra desconhecida, essa é pesquisada no mesmo dicionário. Para tanto, usamos o próprio dicionário para entender as definições ali presentes, num processo que pode ser repetido para chegar a definições mais profundas. Nós nos inspiramos nesse processo para melhorar a representação vetorial de cada sentido pelos sentidos em sua definição, tal que a proximidade entre sentidos diferentes possa ser mais facilmente medida. Esse método é testado em profundidade, reaplicando o dicionário múltiplas vezes, e especificidade, escolhendo o melhor sentido de cada definição a considerar. Com ganhos limitados nos dados de teste, concluímos que esse processo isoladamente não basta para produzir melhor desambiguação, já que o dicionário usado é uma parca representaçao do significado ali expresso, e apontamos a pesquisa futura para métodos menos dependentes do entendimento humano da linguagem
  • Imprenta:
  • Data da defesa: 22.10.2024
  • Acesso à fonteAcesso à fonteDOI
    Informações sobre o DOI: 10.11606/D.45.2024.tde-19122024-170223 (Fonte: oaDOI API)
    • Este periódico é de acesso aberto
    • Este artigo NÃO é de acesso aberto

    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      TERCEROS, Hector Montenegro. Desambiguação léxica por reutilização de dicionários. 2024. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2024. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-19122024-170223/. Acesso em: 25 jan. 2026.
    • APA

      Terceros, H. M. (2024). Desambiguação léxica por reutilização de dicionários (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-19122024-170223/
    • NLM

      Terceros HM. Desambiguação léxica por reutilização de dicionários [Internet]. 2024 ;[citado 2026 jan. 25 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-19122024-170223/
    • Vancouver

      Terceros HM. Desambiguação léxica por reutilização de dicionários [Internet]. 2024 ;[citado 2026 jan. 25 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-19122024-170223/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2026