Text augmentation with key-to-text generation with large language models (2024)
- Authors:
- Autor USP: PELLICER, LUCAS FRANCISCO AMARAL OROSCO - EP
- Unidade: EP
- Sigla do Departamento: PCS
- Assunto: APRENDIZADO COMPUTACIONAL
- Language: Inglês
- Abstract: Um problema clássico em Processamento de Linguagem Natural (PLN) é a classificação de textos, que é crucial para diversas tarefas, como análise de sentimentos, identificação de tópicos, categorização de tópicos e definição de temas em textos científicos. Esses modelos requerem grandes volumes de dados no treinamento para atingir um desempenho ideal, o que pode ser inviável obter tal quantidade de dados em muitos cenários. Consequentemente, técnicas como o Aumento de Dados são de particular interesse para mitigar as limitações de dados. Técnicas de geração automática de texto estão na vanguarda do aumento de dados de texto; no entanto, esses métodos frequentemente apresentam limitações em contextos de escassez de dados. Neste estudo, propomos o Prompt Key Augment (PKA), uma nova técnica de aumento de texto que aproveita a modelagem de Aprendizado Few-shot para lidar com a escassez de dados. Comparamos essa técnica com outros algoritmos de aumento de dados em aplicações de classificação, onde nossa abordagem PKA mostrou-se competitiva e superou outros algoritmos em diversos cenários. Além disso, realizamos uma análise de desempenho dos parâmetros mais relevantes para determinar a combinação que melhor otimiza o desempenho da nossa abordagem.
- Imprenta:
- Data da defesa: 10.12.2024
-
ABNT
PELLICER, Lucas Francisco Amaral Orosco. Text augmentation with key-to-text generation with large language models. 2024. Tese (Doutorado) – Universidade de São Paulo, São Paulo, 2024. Disponível em: https://www.teses.usp.br/teses/disponiveis/3/3141/tde-06052025-083820/pt-br.php. Acesso em: 30 dez. 2025. -
APA
Pellicer, L. F. A. O. (2024). Text augmentation with key-to-text generation with large language models (Tese (Doutorado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/3/3141/tde-06052025-083820/pt-br.php -
NLM
Pellicer LFAO. Text augmentation with key-to-text generation with large language models [Internet]. 2024 ;[citado 2025 dez. 30 ] Available from: https://www.teses.usp.br/teses/disponiveis/3/3141/tde-06052025-083820/pt-br.php -
Vancouver
Pellicer LFAO. Text augmentation with key-to-text generation with large language models [Internet]. 2024 ;[citado 2025 dez. 30 ] Available from: https://www.teses.usp.br/teses/disponiveis/3/3141/tde-06052025-083820/pt-br.php - Otimização de hiperparâmetros de modelos machine learning com BarySearch.
- Improving zero-shot inference with unsupervised key-sentences extraction
- Data augmentation techniques in natural language processing
- PTT5-Paraphraser: diversity and meaning fidelity in automatic portuguese paraphrasing
- Efficient LLMs with AMP: attention heads and MLP pruning
- The BLue Amazon Brain (BLAB): a modular architecture of services about the Brazilian maritime territory
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
