Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português

Sarcinelli, João Lucas Luz Lima; Silva, Diego Furtado

Tese

Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português (2025)

Authors:
- Sarcinelli, João Lucas Luz Lima
- Silva, Diego Furtado (Orientador)
Autor USP: SARCINELLI, JOÃO LUCAS LUZ LIMA - ICMC
Unidade: ICMC
Sigla do Departamento: SCC
DOI: 10.11606/D.55.2025.tde-06082025-180517
Subjects: PROCESSAMENTO DE LINGUAGEM NATURAL; APRENDIZADO COMPUTACIONAL; COLETA DE DADOS; MINERAÇÃO DE DADOS; ANÁLISE DE TEXTO
Keywords: Aprendizado em comitê; Aumento de dados; Data augmentation; Ensemble learning; LLM; LLM; Mineração de texto; NER; REN; Text mining
Agências de fomento:
- Financiamento CAPES
Language: Português
Abstract: O Reconhecimento de Entidades Nomeadas (REN) é uma tarefa essencial do Processamento de Linguagem Natural (PLN), com aplicações relevantes em áreas como saúde, direito e humanidades digitais. No entanto, sistemas modernos para REN, baseados em modelos de linguagem neural, demandam grandes volumes de dados anotados e recursos computacionais elevados, o que dificulta sua adoção em cenários de poucos recursos, especialmente na língua portuguesa e em domínios específicos. Grandes Modelos de Linguagem (LLMs, do inglês Large Language Models) ganham popularidade em cenários de poucos recursos, uma vez que não precisam de grandes volumes de dados anotados para realizar diferentes tarefas de PLN. No entanto, quando comparados aos modelos especializados para a tarefa de REN, LLMs desempenham consideravelmente pior, especialmente quando recursos computacionais ou financeiros são limitados e modelos reduzidos devem ser utilizados. Neste trabalho, investiga-se o uso desses LLMs abertos e reduzidos como alternativa viável para a tarefa de REN em português brasileiro. Propõe-se uma abordagem composta por três frentes principais: (i) o desenvolvimento do MariNER, um novo conjunto de dados anotado manualmente com textos históricos do início do século XX, previamente indisponível na web; (ii) a criação de um comitê de LLMs reduzidos, com mecanismos de votação e combinação de saídas para aumentar a robustez dos resultados; e (iii) o NEAGE, um método de aumento de dados sintéticos para REN viageração e extração, adaptado para operar com LLMs reduzidos em português. Os resultados mostram que, mesmo em cenários com infraestrutura limitada, é possível alavancar o uso desses modelos para produzir resultados competitivos. Além disso, o conjunto produzido contribui para ampliar os recursos disponíveis para REN em português brasileiro.
Imprenta:
- Publisher place: São Carlos
- Date published: 2025
Data da defesa: 23.05.2025

Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).

Status:

Artigo publicado em periódico de acesso aberto (Gold Open Access)

Versão do Documento:

Versão publicada (Published version)

Acessar versão aberta:

PDF de acesso aberto

Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

SARCINELLI, João Lucas Luz Lima. Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português. 2025. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2025. Disponível em: https://teses.usp.br/teses/disponiveis/55/55134/tde-06082025-180517/. Acesso em: 23 mar. 2026.
APA

Sarcinelli, J. L. L. L. (2025). Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://teses.usp.br/teses/disponiveis/55/55134/tde-06082025-180517/
NLM

Sarcinelli JLLL. Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português [Internet]. 2025 ;[citado 2026 mar. 23 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-06082025-180517/
Vancouver

Sarcinelli JLLL. Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português [Internet]. 2025 ;[citado 2026 mar. 23 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-06082025-180517/

ReP

Exportar registro bibliográfico

Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português (2025)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Grandes Modelos de Linguagem Reduzidos para Reconhecimento de Entidades Nomeadas em Português (2025)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: