Exportar registro bibliográfico


Metrics:

Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays (2025)

  • Authors:
  • Autor USP: BARBOSA, ANDRÉ - IME
  • Unidade: IME
  • Sigla do Departamento: MAC
  • DOI: 10.11606/D.45.2025.tde-25092025-141609
  • Subjects: APRENDIZAGEM PROFUNDA; INTELIGÊNCIA ARTIFICIAL; PROCESSAMENTO DE LINGUAGEM NATURAL; REDAÇÃO
  • Keywords: Aprendizado profundo; Artificial intelligence; Automated essay scoring; Avaliação automática de redações; Deep learning; Natural language processing
  • Language: Inglês
  • Abstract: A avaliação automatizada de redações em português enfrenta desafios específicos devido à escassez de pesquisas, à fragmentação dos conjuntos de dados e às estruturas de avaliação multicompetência, como é o caso do ENEM. Esta dissertação investiga a avaliação entre prompts (Cross Prompts), específica por competência, formalizada como f1r (x, p) = s, em que, no conjunto de teste, os modelos devem avaliar redações em prompts não vistos ao longo de cinco competências, cada uma pontuada em uma escala ordinal de seis níveis {0, 40, 80, 120, 160, 200}. A investigação compara sistematicamente três classes de modelos: baseadas em (72 características linguísticas), apenas de codificador (de 109 milhões a 1,5 bilhão de parâmetros) e arquiteturas de decodificador divididas entre modelos de linguagem de pequeno porte que foram treinados por ajuste fino (de 2.4 a 14.7 bilhões de parâmetros) e modelos em (incluindo modelos proprietários e o com 671 bilhões de parâmetros). Sob diferentes paradigmas, variando desde o acesso à informação até estratégias de condicionamento pela rubrica de avaliação, os experimentos revelam que nenhuma configuração atende a todas as necessidades de avaliação: modelos codificadores se destacam em competências mecânicas (fluência, coesão), apesar de não conseguirem acessar os temas das redações devido a limitações da janela de contexto; modelos decodificadores alcançam desempenho superior em argumentação (QWK 0.73) e estilo (QWK 0.60) quando recebem o contextocompleto; e o pré-treinamento específico da língua beneficia apenas aspectos linguísticos superficiais, sem melhorar o raciocínio necessários para tarefas mais complexas. Os modelos de melhor desempenho alcançam QWK de 0.60-0.73 nas competências, permanecendo 11-23 pontos abaixo do acordo entre avaliadores humanos (0.72-0.85), com as maiores oportunidades na avaliação de estilo e persuasão. Esses resultados demonstram que diferentes competências exigem abordagens computacionais fundamentalmente distintas, variando de codificadores leves para avaliação gramatical a modelos decodificadores massivos para análise argumentativa, orientando a implantação estratégica em que as instituições devem aceitar concessões substanciais de desempenho em relação à avaliação humana
  • Imprenta:
  • Data da defesa: 15.09.2025
  • Acesso à fonteAcesso à fonteDOI

    Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).

    Status:
    Artigo publicado em periódico de acesso aberto (Gold Open Access)
    Versão do Documento:
    Versão publicada (Published version)
    Acessar versão aberta:

    Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.


    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      BARBOSA, André. Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays. 2025. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2025. Disponível em: https://teses.usp.br/teses/disponiveis/45/45134/tde-25092025-141609/. Acesso em: 31 mar. 2026.
    • APA

      Barbosa, A. (2025). Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://teses.usp.br/teses/disponiveis/45/45134/tde-25092025-141609/
    • NLM

      Barbosa A. Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays [Internet]. 2025 ;[citado 2026 mar. 31 ] Available from: https://teses.usp.br/teses/disponiveis/45/45134/tde-25092025-141609/
    • Vancouver

      Barbosa A. Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays [Internet]. 2025 ;[citado 2026 mar. 31 ] Available from: https://teses.usp.br/teses/disponiveis/45/45134/tde-25092025-141609/


Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2026