Algoritmos baseados em atenção neural para a automação da classicação multirrótulo de acórdãos jurídicos (2021)
- Authors:
- Autor USP: SERRAS, FELIPE RIBAS - IME
- Unidade: IME
- Sigla do Departamento: MAC
- Subjects: ALGORITMOS PARA PROCESSAMENTO; LINGUÍSTICA COMPUTACIONAL; INTELIGÊNCIA ARTIFICIAL
- Keywords: Acórdãos; Aplicações legais da ciência da computação; Artificial intelligence; Attention mechanisms; Automatic text categorization; BERT; Classificação automática de textos; Classificação de textos jurídicos; Computational linguistics; Court decisions; Legal applications of computer science; Legal texts categorization; Mecanismos de atenção; Natural language processing; Neural networks; Processamento de linguagem natural; Redes neurais; Transformers; Verbetação
- Agências de fomento:
- Language: Português
- Abstract: No Brasil e em vários outros países, decisões de tribunais superiores criam jurisprudência e podem ser utilizadas na resolução de casos semelhantes. Os acórdãos, textos que registram tais decisões, contam com uma classificação multicategoria e multirrótulo chamada de verbetação, realizada manualmente com a intenção de que tais documentos possam ser facilmente buscados e recuperados. A literatura da área já identificou vários problemas na elaboração dessas verbetações; concomitantemente, algoritmos neurais de linguística computacional baseados em atenção, como o Transformer e o BERT, têm ganhado destaque ao permitir que a resolução automática de problemas linguísticos atinja patamares nunca antes alcançados, lançando questões sobre seus limites, potencial e aplicabilidade. O trabalho de pesquisa aqui apresentado consiste num estudo inicial do uso de algoritmos baseados em atenção para a automação da verbetação de acórdãos em português, com o intuito de lançar caminhos para a resolução dos problemas listados na literatura e de agregar conhecimento do escopo e funcionalidade dessa família de métodos. Para tal, utilizamos dados do Projeto Kollemata como base para implementar e treinar versões multicategoria e multirrótulo de diversos modelos BERT, com o intuito de realizar a verbetação de acórdãos de maneira automática. Esse processo constituiu-se de três etapas: a construção de um córpus processável a partir dos dados do Kollemata e a consequente análise exploratória dessecórpus com o intuito de mapear as propriedades dos dados a serem utilizados; a adequação ontológica e taxonômica do sistema de classes do córpus com base nos resultados obtidos dessa análise, de maneira a tornar a classificação computacionalmente viável; a implementação de uma versão multicategoria e multirrótulo do BERT e seu treinamento com o córpus adequado, sob diversos parâmetros e usando diferentes modelos BERT de interesse, de maneira a avaliar o comportamento e limites das médias da Medida-F1 e outros índices de performance. Obtivemos, no melhor caso, 72% para a micro-média da medida-F1 e 71% para sua macro-média, constituindo ganhos da ordem de 30% ou mais em relação aos baselines estatísticos utilizados. Além disso, encontramos uma família ótima de parâmetros para essa tarefa, condizente com valores ótimos obtidos para tarefas distintas e observamos uma série de propriedades interessantes da evolução das métricas de performance em função de diferentes parâmetros. Registramos, também, melhor performance dos modelos maiores e pré-treinados com dados em português, em comparação com modelos menores e multilinguais. Entretanto, essa vantagem é pequena, o que indica a possibilidade da utilização de modelos menores e multilinguais para essa tarefa em específico, sem perda significativa de qualidade. Uma análise cuidadosa desse e de outros resultados auxiliares aqui apresentados, também nos levou a concluir que a principal barreira na obtenção de melhores resultados deperformance é a forma como os dados foram classificados e organizados, indicando esse como principal aspecto de melhora a ser implementado em trabalhos futuros
- Imprenta:
- Data da defesa: 04.05.2021
-
ABNT
SERRAS, Felipe Ribas. Algoritmos baseados em atenção neural para a automação da classicação multirrótulo de acórdãos jurídicos . 2021. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2021. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-07062021-135753/. Acesso em: 05 nov. 2024. -
APA
Serras, F. R. (2021). Algoritmos baseados em atenção neural para a automação da classicação multirrótulo de acórdãos jurídicos (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-07062021-135753/ -
NLM
Serras FR. Algoritmos baseados em atenção neural para a automação da classicação multirrótulo de acórdãos jurídicos [Internet]. 2021 ;[citado 2024 nov. 05 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-07062021-135753/ -
Vancouver
Serras FR. Algoritmos baseados em atenção neural para a automação da classicação multirrótulo de acórdãos jurídicos [Internet]. 2021 ;[citado 2024 nov. 05 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-07062021-135753/
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas