Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português (2025)
- Authors:
- Autor USP: SARCINELLI, JOÃO LUCAS LUZ LIMA - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- DOI: 10.11606/D.55.2025.tde-06082025-180517
- Subjects: PROCESSAMENTO DE LINGUAGEM NATURAL; APRENDIZADO COMPUTACIONAL; COLETA DE DADOS; MINERAÇÃO DE DADOS; ANÁLISE DE TEXTO
- Keywords: Aprendizado em comitê; Aumento de dados; Data augmentation; Ensemble learning; LLM; LLM; Mineração de texto; NER; REN; Text mining
- Agências de fomento:
- Language: Português
- Abstract: O Reconhecimento de Entidades Nomeadas (REN) é uma tarefa essencial do Processamento de Linguagem Natural (PLN), com aplicações relevantes em áreas como saúde, direito e humanidades digitais. No entanto, sistemas modernos para REN, baseados em modelos de linguagem neural, demandam grandes volumes de dados anotados e recursos computacionais elevados, o que dificulta sua adoção em cenários de poucos recursos, especialmente na língua portuguesa e em domínios específicos. Grandes Modelos de Linguagem (LLMs, do inglês Large Language Models) ganham popularidade em cenários de poucos recursos, uma vez que não precisam de grandes volumes de dados anotados para realizar diferentes tarefas de PLN. No entanto, quando comparados aos modelos especializados para a tarefa de REN, LLMs desempenham consideravelmente pior, especialmente quando recursos computacionais ou financeiros são limitados e modelos reduzidos devem ser utilizados. Neste trabalho, investiga-se o uso desses LLMs abertos e reduzidos como alternativa viável para a tarefa de REN em português brasileiro. Propõe-se uma abordagem composta por três frentes principais: (i) o desenvolvimento do MariNER, um novo conjunto de dados anotado manualmente com textos históricos do início do século XX, previamente indisponível na web; (ii) a criação de um comitê de LLMs reduzidos, com mecanismos de votação e combinação de saídas para aumentar a robustez dos resultados; e (iii) o NEAGE, um método de aumento de dados sintéticos para REN viageração e extração, adaptado para operar com LLMs reduzidos em português. Os resultados mostram que, mesmo em cenários com infraestrutura limitada, é possível alavancar o uso desses modelos para produzir resultados competitivos. Além disso, o conjunto produzido contribui para ampliar os recursos disponíveis para REN em português brasileiro.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2025
- Data da defesa: 23.05.2025
- Status:
- Artigo publicado em periódico de acesso aberto (Gold Open Access)
- Versão do Documento:
- Versão publicada (Published version)
- Acessar versão aberta:
-
ABNT
SARCINELLI, João Lucas Luz Lima. Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português. 2025. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2025. Disponível em: https://teses.usp.br/teses/disponiveis/55/55134/tde-06082025-180517/. Acesso em: 23 mar. 2026. -
APA
Sarcinelli, J. L. L. L. (2025). Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://teses.usp.br/teses/disponiveis/55/55134/tde-06082025-180517/ -
NLM
Sarcinelli JLLL. Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português [Internet]. 2025 ;[citado 2026 mar. 23 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-06082025-180517/ -
Vancouver
Sarcinelli JLLL. Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português [Internet]. 2025 ;[citado 2026 mar. 23 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-06082025-180517/
Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).
Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
