Exportar registro bibliográfico


Metrics:

Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs) (2024)

  • Authors:
  • Autor USP: BITELLI, BRUNO VIANNA - IME
  • Unidade: IME
  • Sigla do Departamento: MAC
  • DOI: 10.11606/D.45.2024.tde-05022025-190506
  • Subjects: INTELIGÊNCIA ARTIFICIAL; LINGUÍSTICA COMPUTACIONAL; REDES NEURAIS
  • Keywords: Ajuste de instruções; Ajuste fino; Aprendizado a base de prompts; Artificial intelligence; Automatic text classification; ChatGPT; Classificação automática de textos; Engenharia de prompts; Finetuning; Gemini; Instruction-tuning; LLaMA; Meta; Named entity recognition; Natural language processing; Neural networks; Number entity recognition; OpenAI; Processamento de linguagem natural; Prompt engineering; Prompt-based learning; Reconhecimento de entidades mencionadas; Reconhecimento de entidades numéricas
  • Language: Português
  • Abstract: Este trabalho estuda a tarefa de reconhecimento de entidades, em especial, entidades numéricas, empregando LLMs tanto nas análises qualitativas quanto quantitativas. Apesar das habilidade gerativas destes modelos serem um dos principais tópicos de atenção no campo de inteligência artificial, ainda existem poucos estudos analisando quantitativamente suas habilidades para tarefas mais tradicionais de NLP, como reconhecimento de entidades mencionadas. Esta ausência de estudos é ainda mais acentuada nas aplicações na língua portuguesa. Comparamos o uso de LLMs open-source (LLaMA 2) aplicando-se um finetuning de seus parâmetros, e de LLMs fechadas, como o ChatGPT e Gemini, aplicando-se técnicas de prompt engineering, em uma tarefa de reconhecimento de entidades numéricas. Como base para o estudo, os algoritmos serão testados em uma base de dados construída especialmente para o projeto, utilizando mais de 600 acórdãos jurídicos em português manualmente rotulados. Os resultados deste estudo também motivam uma discussão entre o paradigma atual de estudos de LLMs, comparando as habilidades e limitações de construção de prompts, instrucion-tuning e uma nova metodologia para finetuning via LoRA que não depende de prompts, aproximando estes modelos decoder-only à suas contrapartes mais tradicionais encoder-only. Neste relatório é apresentado as descrições teóricas dos dados utilizados, dos problemas estudados, dos algoritmos e da metodologia de construção de prompts e ajustes finosutilizadas
  • Imprenta:
  • Data da defesa: 06.11.2024
  • Acesso à fonteAcesso à fonteDOI
    Informações sobre o DOI: 10.11606/D.45.2024.tde-05022025-190506 (Fonte: oaDOI API)
    • Este periódico é de acesso aberto
    • Este artigo é de acesso aberto
    • URL de acesso aberto
    • Cor do Acesso Aberto: gold
    • Licença: cc-by-nc-sa

    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      BITELLI, Bruno Vianna. Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs). 2024. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2024. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-05022025-190506/. Acesso em: 04 ago. 2025.
    • APA

      Bitelli, B. V. (2024). Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs) (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45134/tde-05022025-190506/
    • NLM

      Bitelli BV. Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs) [Internet]. 2024 ;[citado 2025 ago. 04 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-05022025-190506/
    • Vancouver

      Bitelli BV. Extração de informações numéricas em textos jurídicos usando Grandes Modelos de Língua (LLMs) [Internet]. 2024 ;[citado 2025 ago. 04 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-05022025-190506/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2025