Decoding spatial semantics: a comparative analysis of the performance of open-source LLMs against NMT systems in translating EN-PT-BR subtitles (2024)
- Authors:
- Autor USP: FERNANDES, RAFAEL MACÁRIO - FFLCH
- Unidade: FFLCH
- Sigla do Departamento: FLL
- DOI: 10.11606/D.8.2024.tde-10122024-105745
- Subjects: POLISSEMIA; PROCESSAMENTO DE LINGUAGEM NATURAL; TIPOLOGIA DAS LÍNGUAS; TRADUÇÃO AUTOMÁTICA
- Keywords: Avaliação da tradução automática; Machine translation evaluation; Modelos de Linguagem (LLMs); Neural Machine Translation (NMT); Open-source Large Language Models (LLMs); Polissemia das preposições; Preposition polysemy; Semântica espacial; Spatial semantics; Tradução Automática Neural (NMT)
- Agências de fomento:
- Language: Inglês
- Abstract: Esta dissertação de mestrado investiga os desafios da tradução da espacialidade usando Grandes Modelos de Linguagem (LLMs) de código aberto em comparação com sistemas tradicionais de Tradução Automática Neural (NMT), abordando problemas na tradução de preposições espaciais como ACROSS, INTO, ONTO e THROUGH, que frequentemente são traduzidas utilizando-se as mesmas formas verbais ou preposicionais do inglês para o português (EN-PT-BR). A tradução correta dessas preposições é crucial para manter a integridade semântica da língua de origem, garantindo fluidez e aderência aos padrões de lexicalização da língua alvo (House 2018; Talmy 2000b; Slobin 2005). A pesquisa contextualiza os desafios da tradução da linguagem espacial, destacando as limitações dos sistemas NMT atuais e as potenciais vantagens dos LLMs. A revisão de literatura traça a evolução das teorias de tradução, o desenvolvimento da NMT e o surgimento dos LLMs, descrevendo também suas limitações. A metodologia emprega uma análise baseada em corpus, a partir de um conjunto de dados bilíngue centrado em preposições espaciais de legendas de TED Talks obtidos pela plataforma OPUS. Este conjunto de dados foi meticulosamente pré-processado para facilitar tanto o cálculo de métricas automatizadas quanto a análise de erros manual. As métricas utilizadas incluem BLEU, METEOR, BERTScore, COMET e TER, enquanto a análise manual identifica e categoriza os tipos de erros que cada sistema comete.Os resultados revelam que LLMs de tamanho moderado, como LLaMa-3-8B e Mixtral-8x7B, alcançam precisão próxima aos sistemas NMT, como o Google, embora essa relação nem sempre seja linear, pois modelos como Gemma-7B possuíram desempenho similar na avaliação humana. No entanto, os LLMs em geral apresentaram sérios erros de tradução, incluindo interlíngua/code-switching (in) e anglicismos (an), não conseguindo transmitir idiomaticidade na língua-alvo. Por outro lado, os sistemas NMT alcançaram muito melhor fluidez na tarefa de tradução automática. No entanto, a análise humana destaca os desafios contínuos enfrentados tanto pelos LLMs quanto pelos sistemas NMT na tradução das nuances da espacialidade, com ambos os grupos apresentando números consistentes de erros como polissemia (po) e projeção sintática (sp), nos quais falham em traduzir o significado apropriado de uma preposição ou copiam os padrões de lexicalização da língua de origem para o texto alvo (Fernandes et al. 2024; Oliveira e Fernandes 2022).A dissertação conclui que, apesar dos avanços nos LLMs, permanecem obstáculos na tradução precisa da linguagem espacial, sugerindo que pesquisas futuras devem se concentrar em aprimorar conjuntos de dados de treinamento, refinar arquiteturas desses modelos e desenvolver métricas de avaliação mais sofisticadas que capturem melhor as sutilezas da semântica espacial. Este estudo contribui para o campo fornecendo uma comparação detalhada do desempenho de LLMs e NMT na tradução da linguagem espacial do EN-PT-BR, propondo direções para melhorias futuras
- Imprenta:
- Data da defesa: 06.08.2024
- Este periódico é de acesso aberto
- Este artigo NÃO é de acesso aberto
-
ABNT
FERNANDES, Rafael Macário. Decoding spatial semantics: a comparative analysis of the performance of open-source LLMs against NMT systems in translating EN-PT-BR subtitles. 2024. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2024. Disponível em: https://www.teses.usp.br/teses/disponiveis/8/8139/tde-10122024-105745/. Acesso em: 25 jan. 2026. -
APA
Fernandes, R. M. (2024). Decoding spatial semantics: a comparative analysis of the performance of open-source LLMs against NMT systems in translating EN-PT-BR subtitles (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/8/8139/tde-10122024-105745/ -
NLM
Fernandes RM. Decoding spatial semantics: a comparative analysis of the performance of open-source LLMs against NMT systems in translating EN-PT-BR subtitles [Internet]. 2024 ;[citado 2026 jan. 25 ] Available from: https://www.teses.usp.br/teses/disponiveis/8/8139/tde-10122024-105745/ -
Vancouver
Fernandes RM. Decoding spatial semantics: a comparative analysis of the performance of open-source LLMs against NMT systems in translating EN-PT-BR subtitles [Internet]. 2024 ;[citado 2026 jan. 25 ] Available from: https://www.teses.usp.br/teses/disponiveis/8/8139/tde-10122024-105745/
Informações sobre o DOI: 10.11606/D.8.2024.tde-10122024-105745 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas