Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico Brasileiro (2023)
- Authors:
- Autor USP: SAKIYAMA, KENZO MIRANDA - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- DOI: 10.11606/D.55.2023.tde-18122023-153735
- Subjects: APRENDIZADO COMPUTACIONAL; PROCESSAMENTO DE LINGUAGEM NATURAL; SISTEMA JUDICIÁRIO; AUTOMAÇÃO DAS LÍNGUAS NATURAIS; RECUPERAÇÃO DA INFORMAÇÃO; ANÁLISE DE TEXTO
- Keywords: Aprendizado profundo; Deep learning; Geração de texto; Information retrieval; Machine learning; Natural language processing; Text generation
- Agências de fomento:
- Language: Português
- Abstract: A grande quantidade de processos jurídicos em trânsito no Brasil, evidencia a grande lentidão do sistema judiciário brasileiro. Sendo assim, há uma grande necessidade em desenvolver formas de automatizar e melhorar processos existentes. Os recentes avanços em Processamento de Linguagem Natural (PLN), possibilitam a aplicação dos métodos do estado da arte para automatizar tarefas em diferentes domínios. Assim, neste trabalho, abordamos o problema da automatização da escrita de verbetações: sequência de termos-chave presentes em documentos utilizados em tribunais de todo o Brasil. Para tanto, propusemos a utilização de um framework texto-para-texto baseado em Transformers generativos. Avaliamos diferentes modelos generativos (PTT5, mT5, OPT e BLOOM) e comparamos seus desempenhos para a tarefa proposta. O modelo PTT5 foi escolhido como gerador de verbetações, pois alcançou uma pontuação BLEU de 37,54% no conjunto de teste, superando os demais modelos avaliados em até 24,6%. Por fim, para avaliar a influência e a qualidade das verbetações geradas, realizamos quatro experimentos baseados em um caso real de recuperação de informações no domínio jurídico. Empregando métodos tradicionais de recuperação de informações (TF-IDF e BM25); em combinação com as verbetações originais, geradas, ou ambas; observamos ganhos estatisticamente significativos (p-valor < 0,05) em todos os experimentos realizados.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2023
- Data da defesa: 13.07.2023
- Status:
- Artigo publicado em periódico de acesso aberto (Gold Open Access)
- Versão do Documento:
- Versão publicada (Published version)
- Acessar versão aberta:
-
ABNT
SAKIYAMA, Kenzo. Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico Brasileiro. 2023. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2023. Disponível em: https://teses.usp.br/teses/disponiveis/55/55134/tde-18122023-153735/. Acesso em: 07 abr. 2026. -
APA
Sakiyama, K. (2023). Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico Brasileiro (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://teses.usp.br/teses/disponiveis/55/55134/tde-18122023-153735/ -
NLM
Sakiyama K. Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico Brasileiro [Internet]. 2023 ;[citado 2026 abr. 07 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-18122023-153735/ -
Vancouver
Sakiyama K. Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico Brasileiro [Internet]. 2023 ;[citado 2026 abr. 07 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-18122023-153735/ - Deep4Fusion: a Deep FORage Fusion framework for high-throughput phenotyping for green and dry matter yield traits
- A framework for controversial political topics identification using Twitter data
- Automated keyphrase generation for brazilian legal information retrieval
- Open-world text classification by combining weak models and large language models
- Enhancing brazilian legal information retrieval: an automated keyphrase generation
- PLN no Direito: ementas
- Exploring text decoding methods for portuguese legal text generation
- LeanDL HPC Challenge 2025: applying large-scale model adaptation techniques
Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).
Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
