Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays

Barbosa, André; Mauá, Denis Deratani

Tese

Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays (2025)

Authors:
- Barbosa, André
- Mauá, Denis Deratani (Orientador)
Autor USP: BARBOSA, ANDRÉ - IME
Unidade: IME
Sigla do Departamento: MAC
DOI: 10.11606/D.45.2025.tde-25092025-141609
Subjects: APRENDIZAGEM PROFUNDA; INTELIGÊNCIA ARTIFICIAL; PROCESSAMENTO DE LINGUAGEM NATURAL; REDAÇÃO
Keywords: Aprendizado profundo; Artificial intelligence; Automated essay scoring; Avaliação automática de redações; Deep learning; Natural language processing
Language: Inglês
Abstract: A avaliação automatizada de redações em português enfrenta desafios específicos devido à escassez de pesquisas, à fragmentação dos conjuntos de dados e às estruturas de avaliação multicompetência, como é o caso do ENEM. Esta dissertação investiga a avaliação entre prompts (Cross Prompts), específica por competência, formalizada como f1r (x, p) = s, em que, no conjunto de teste, os modelos devem avaliar redações em prompts não vistos ao longo de cinco competências, cada uma pontuada em uma escala ordinal de seis níveis {0, 40, 80, 120, 160, 200}. A investigação compara sistematicamente três classes de modelos: baseadas em (72 características linguísticas), apenas de codificador (de 109 milhões a 1,5 bilhão de parâmetros) e arquiteturas de decodificador divididas entre modelos de linguagem de pequeno porte que foram treinados por ajuste fino (de 2.4 a 14.7 bilhões de parâmetros) e modelos em (incluindo modelos proprietários e o com 671 bilhões de parâmetros). Sob diferentes paradigmas, variando desde o acesso à informação até estratégias de condicionamento pela rubrica de avaliação, os experimentos revelam que nenhuma configuração atende a todas as necessidades de avaliação: modelos codificadores se destacam em competências mecânicas (fluência, coesão), apesar de não conseguirem acessar os temas das redações devido a limitações da janela de contexto; modelos decodificadores alcançam desempenho superior em argumentação (QWK 0.73) e estilo (QWK 0.60) quando recebem o contextocompleto; e o pré-treinamento específico da língua beneficia apenas aspectos linguísticos superficiais, sem melhorar o raciocínio necessários para tarefas mais complexas. Os modelos de melhor desempenho alcançam QWK de 0.60-0.73 nas competências, permanecendo 11-23 pontos abaixo do acordo entre avaliadores humanos (0.72-0.85), com as maiores oportunidades na avaliação de estilo e persuasão. Esses resultados demonstram que diferentes competências exigem abordagens computacionais fundamentalmente distintas, variando de codificadores leves para avaliação gramatical a modelos decodificadores massivos para análise argumentativa, orientando a implantação estratégica em que as instituições devem aceitar concessões substanciais de desempenho em relação à avaliação humana
Imprenta:
- Publisher place: São Paulo
- Date published: 2025
Data da defesa: 15.09.2025

Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).

Status:

Artigo publicado em periódico de acesso aberto (Gold Open Access)

Versão do Documento:

Versão publicada (Published version)

Acessar versão aberta:

PDF de acesso aberto

Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

BARBOSA, André. Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays. 2025. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2025. Disponível em: https://teses.usp.br/teses/disponiveis/45/45134/tde-25092025-141609/. Acesso em: 31 mar. 2026.
APA

Barbosa, A. (2025). Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://teses.usp.br/teses/disponiveis/45/45134/tde-25092025-141609/
NLM

Barbosa A. Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays [Internet]. 2025 ;[citado 2026 mar. 31 ] Available from: https://teses.usp.br/teses/disponiveis/45/45134/tde-25092025-141609/
Vancouver

Barbosa A. Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays [Internet]. 2025 ;[citado 2026 mar. 31 ] Available from: https://teses.usp.br/teses/disponiveis/45/45134/tde-25092025-141609/

ReP

Exportar registro bibliográfico

Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays (2025)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays (2025)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: