Desambiguação léxica por reutilização de dicionários (2024)
- Authors:
- Autor USP: TERCEROS, HECTOR MONTENEGRO - IME
- Unidade: IME
- Sigla do Departamento: MAC
- DOI: 10.11606/D.45.2024.tde-19122024-170223
- Subjects: PROCESSAMENTO DE LINGUAGEM NATURAL; POLISSEMIA
- Keywords: Desambiguação léxica; Natural language processing; Word sense disambiguation
- Agências de fomento:
- Language: Português
- Abstract: Dentro da área de Processamento de Linguagem Natural, um problema central e ainda não resolvido é o de Desambiguação Léxica, que consiste em identificar o sentido exprimido por uma palavra polissêmica. Esse desafio é ainda agravado quando um texto possui mais de uma palavra polissêmica, permitindo várias interpretações do contexto. Nesse caso, uma boa solução é considerar a relação entre os possíveis sentidos das palavras ambíguas, escolhendo a combinação de sentidos com melhor proximidade semântica conjunta. Analisando um texto grande essa formulação rapidamente torna-se intratável computacionalmente pela quantidade de combinações a testar, de forma que adota-se uma heurística para aproximar uma boa solução: um grafo cujos vértices são os possíveis sentidos das palavras a se desambiguar, com arestas refletindo em seus pesos a proximidade semântica de cada par de sentidos. Com esse grafo, um algoritmo de centralidade pode escolher qual o sentido mais central de cada palavra ambígua, o que é equiparado à sua relevância semântica dentre os sentidos e portanto define a resposta do modelo. Outra solução no mesmo cenário, desenvolvida a partir dessa primeira, é escolher um caminho que passe uma única vez por cada palavra e maximize a proximidade semântica, numa variação do Problema do Caixeiro Viajante Generalizado. Embora essa metodologia já tenha trazido resultados interessantes na área, seu desempenho nunca atingiu valores satisfatórios, e um dos motivos para tal é aesparsidade de suas arestas: as medidas de proximidade semântica usadas até hoje não conseguem trazer essa informação para qualquer par de sentidos, e é comum que tragam um valor de proximidade para apenas uma pequena parcela das arestas de um grafo, atrapalhando o mecanismo de priorização ou impedindo que certos caminhos sejam considerados. Propomos então uma nova forma de calcular a proximidade entre pares de sentidos, inspirada na forma com que humanos lêem dicionários e entendem seus conceitos. Se uma definição inclui uma palavra desconhecida, essa é pesquisada no mesmo dicionário. Para tanto, usamos o próprio dicionário para entender as definições ali presentes, num processo que pode ser repetido para chegar a definições mais profundas. Nós nos inspiramos nesse processo para melhorar a representação vetorial de cada sentido pelos sentidos em sua definição, tal que a proximidade entre sentidos diferentes possa ser mais facilmente medida. Esse método é testado em profundidade, reaplicando o dicionário múltiplas vezes, e especificidade, escolhendo o melhor sentido de cada definição a considerar. Com ganhos limitados nos dados de teste, concluímos que esse processo isoladamente não basta para produzir melhor desambiguação, já que o dicionário usado é uma parca representaçao do significado ali expresso, e apontamos a pesquisa futura para métodos menos dependentes do entendimento humano da linguagem
- Imprenta:
- Data da defesa: 22.10.2024
- Status:
- Artigo publicado em periódico de acesso aberto (Gold Open Access)
- Versão do Documento:
- Versão publicada (Published version)
- Acessar versão aberta:
-
ABNT
TERCEROS, Hector Montenegro. Desambiguação léxica por reutilização de dicionários. 2024. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2024. Disponível em: https://teses.usp.br/teses/disponiveis/45/45134/tde-19122024-170223/. Acesso em: 07 abr. 2026. -
APA
Terceros, H. M. (2024). Desambiguação léxica por reutilização de dicionários (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://teses.usp.br/teses/disponiveis/45/45134/tde-19122024-170223/ -
NLM
Terceros HM. Desambiguação léxica por reutilização de dicionários [Internet]. 2024 ;[citado 2026 abr. 07 ] Available from: https://teses.usp.br/teses/disponiveis/45/45134/tde-19122024-170223/ -
Vancouver
Terceros HM. Desambiguação léxica por reutilização de dicionários [Internet]. 2024 ;[citado 2026 abr. 07 ] Available from: https://teses.usp.br/teses/disponiveis/45/45134/tde-19122024-170223/
Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).
Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
