Estratégias de seleção informada de dados para aprendizado com dados escassos e desbalanceados (2025)
- Authors:
- USP affiliated authors: FAMA, ISRAEL CAMPOS - FFLCH ; OKAMURA, LUCAS HIDEKI TAKEUCHI - EP ; BUENO, BARBARA FERNANDES DIAS - EP ; ALCOFORADO, ALEXANDRE TEODORO DE SIQUEIRA GUEDES - EP
- Unidades: FFLCH; EP
- DOI: 10.21814/1m.17.1.451
- Subjects: PROCESSAMENTO DE LINGUAGEM NATURAL; SEMÂNTICA; AMOSTRAGEM
- Language: Português
- Abstract: A obtenção de dados anotados de alta qualidade é um dos principais desafios no Processamento de Linguagem Natural (PLN), especialmente em métodos de aprendizado supervisionado. Em cenários onde dados previamente anotados não estão disponíveis, soluções comuns como o crowdsourcing e a abordagem zero-shot frequentemente apresentam limitações, incluindo a necessidade de grandes volumes de dados e a falta de garantias quanto à qualidade das anotações. Tradicionalmente, os dados para anotação humana são selecionados de forma aleatória, uma prática que não só é custosa e ineficiente, mas também suscetível a viés, particularmente em conjuntos de dados desbalanceados, onde as classes minoritárias são sub-representadas. Para enfrentar esses desafios, este trabalho apresenta uma arquitetura de seleção automática e informada de dados, projetada para minimizar o volume de anotações necessárias enquanto maximiza a diversidade e representatividade dos dados selecionados. Entre os métodos avaliados, a Busca Semântica Reversa (RSS) se destacou, superando consistentemente a seleção por amostragem aleatória em cenários desbalanceados e melhorando o desempenho dos classificadores treinados. Além disso, realiza-se uma comparação entre a RSS e outros métodos baseados em agrupamento, discutindo seus pontos fortes e fracos.
- Imprenta:
- Source:
- Título: Linguamatica: revista para o processamento automatico das linguas ibericas
- ISSN: 1647-0818
- Volume/Número/Paginação/Ano: v. 17, n. 1, p. 105-120, 2025
- Este periódico é de acesso aberto
- Este artigo NÃO é de acesso aberto
-
ABNT
ALCOFORADO, Alexandre et al. Estratégias de seleção informada de dados para aprendizado com dados escassos e desbalanceados. Linguamatica: revista para o processamento automatico das linguas ibericas, v. 17, n. 1, p. 105-120, 2025Tradução . . Disponível em: https://doi.org/10.21814/lm.17.1.451. Acesso em: 20 jan. 2026. -
APA
Alcoforado, A., Okamura, L. H. T., Ferraz, T. P., Fama, I. C., Bueno, B. D., Veloso, B. M. D., & Reali Costa, A. H. (2025). Estratégias de seleção informada de dados para aprendizado com dados escassos e desbalanceados. Linguamatica: revista para o processamento automatico das linguas ibericas, 17( 1), 105-120. doi:10.21814/1m.17.1.451 -
NLM
Alcoforado A, Okamura LHT, Ferraz TP, Fama IC, Bueno BD, Veloso BMD, Reali Costa AH. Estratégias de seleção informada de dados para aprendizado com dados escassos e desbalanceados [Internet]. Linguamatica: revista para o processamento automatico das linguas ibericas. 2025 ; 17( 1): 105-120.[citado 2026 jan. 20 ] Available from: https://doi.org/10.21814/lm.17.1.451 -
Vancouver
Alcoforado A, Okamura LHT, Ferraz TP, Fama IC, Bueno BD, Veloso BMD, Reali Costa AH. Estratégias de seleção informada de dados para aprendizado com dados escassos e desbalanceados [Internet]. Linguamatica: revista para o processamento automatico das linguas ibericas. 2025 ; 17( 1): 105-120.[citado 2026 jan. 20 ] Available from: https://doi.org/10.21814/lm.17.1.451
Informações sobre o DOI: 10.21814/1m.17.1.451 (Fonte: oaDOI API)
Download do texto completo
| Tipo | Nome | Link | |
|---|---|---|---|
| Estratégias_de_Seleção... |
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
