Tupi Antigo: desenvolvimento de ferramentas computacionais para tradução e preservação cultural (2025)
- Authors:
- Autor USP: REZENDE, CALEBE MACENA - IME
- Unidade: IME
- Sigla do Departamento: MAC
- DOI: 10.11606/D.45.2025.tde-25112025-123842
- Subjects: LÍNGUAS INDÍGENAS; LÍNGUA TUPI; TRADUÇÃO AUTOMÁTICA; REDES NEURAIS; PROCESSAMENTO DE LINGUAGEM NATURAL; LINGUÍSTICA COMPUTACIONAL
- Keywords: Biblioteca Transformers; Camuflagem linguística; Indigenous languages; Language aliasing; Línguas indígenas; Low-resource NLP; Neural machine translation; NLLB; Old Tupi; Pivotamento por língua proximal; PLN; Proximal language pivoting; Tradução neural; Tupi Antigo
- Language: Português
- Abstract: Esta dissertação propõe o desenvolvimento de ferramentas computacionais para a tradução automática e a preservação cultural do Tupi Antigo, língua indígena histórica do Brasil colonial. Durante a pesquisa há uma investigação aprofundada sobre a tradução automática entre o Português e o Tupi Antigo, com foco em estratégias inovadoras para superar os desafios inerentes à escassez de dados paralelos, à complexidade morfológica e à baixa representatividade computacional de línguas indígenas. Diante da ausência de suporte nativo para o Tupi Antigo em grandes modelos multilingues, propôs-se uma abordagem metodológica original baseada em duas técnicas complementares: tradução direta e a tradução pivotada por língua proximal, em que o Guarani Paraguaio atua como intermediário devido à sua proximidade linguística com o Tupi Antigo, e a camuflagem linguística (language aliasing), que consistiu em mascarar o Tupi sob rótulos reconhecíveis pelo modelo NLLB-200 UTIYAMA; ISAHARA (2007) (TAN et al., 2023). Nesse processo, contou com uma colaboração de linguistas e especialistas em línguas Tupi-Guarani,Tupi Antigo, Thomas Daniel Finbow, Kian Arad Sheik, entre outros e de Guarani Paraguaio: Cintia Lorena Rolón Aguirre, Maria Almeida e Almir da Silveira. A pesquisa desenvolveu um pipeline completo que inclui curadoria de córpus, treinamento e refino supervisionado com validação cruzada (K-Fold), avaliação por métricas automáticas (BLEU, chrF, TER) e validação qualitativa com análises frase afrase. No caminho Português Tupi Antigo, observou-se melhora significativa após o refinamento, com aumento da fidelidade semântica e fluidez textual, fato que motivou a substituição do modelo anterior pela nova versão na plataforma pública de tradução Tupitranslator. Já no sentido Tupi Antigo Português, os resultados apontaram para uma estagnação ou até regressão após o refinamento, indicando a necessidade de novos critérios de seleção e ampliação do corpus qualificado. A dissertação também levanta hipóteses linguísticas para as dificuldades encontradas, como a alta polissemia do Tupi Antigo, sua estrutura aglutinante e as limitações da tokenização baseada em subpalavras para representar morfemas complexos. Além disso, argumenta-se que a preservação de línguas indígenas exige uma abordagem sociotécnica, na qual a tecnologia deve ser sensível ao contexto histórico, cultural e epistemológico das comunidades envolvidas (ZUCKERMANN; WALSH, 2013). Como contribuições teóricas e práticas, este trabalho oferece um repositório de dados, modelos treinados e uma interface pública, além de abrir caminho para aplicações futuras em PLN de baixo recurso, revitalização linguística e tradução mediada por línguas tipologicamente próximas
- Imprenta:
- Data da defesa: 30.09.2025
- Este periódico é de acesso aberto
- Este artigo NÃO é de acesso aberto
-
ABNT
REZENDE, Calebe Macena. Tupi Antigo: desenvolvimento de ferramentas computacionais para tradução e preservação cultural. 2025. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2025. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-25112025-123842/. Acesso em: 23 jan. 2026. -
APA
Rezende, C. M. (2025). Tupi Antigo: desenvolvimento de ferramentas computacionais para tradução e preservação cultural (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-25112025-123842/ -
NLM
Rezende CM. Tupi Antigo: desenvolvimento de ferramentas computacionais para tradução e preservação cultural [Internet]. 2025 ;[citado 2026 jan. 23 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-25112025-123842/ -
Vancouver
Rezende CM. Tupi Antigo: desenvolvimento de ferramentas computacionais para tradução e preservação cultural [Internet]. 2025 ;[citado 2026 jan. 23 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-25112025-123842/
Informações sobre o DOI: 10.11606/D.45.2025.tde-25112025-123842 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
