Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays (2025)
- Authors:
- Autor USP: BARBOSA, ANDRÉ - IME
- Unidade: IME
- Sigla do Departamento: MAC
- DOI: 10.11606/D.45.2025.tde-25092025-141609
- Subjects: APRENDIZAGEM PROFUNDA; INTELIGÊNCIA ARTIFICIAL; PROCESSAMENTO DE LINGUAGEM NATURAL; REDAÇÃO
- Keywords: Aprendizado profundo; Artificial intelligence; Automated essay scoring; Avaliação automática de redações; Deep learning; Natural language processing
- Language: Inglês
- Abstract: A avaliação automatizada de redações em português enfrenta desafios específicos devido à escassez de pesquisas, à fragmentação dos conjuntos de dados e às estruturas de avaliação multicompetência, como é o caso do ENEM. Esta dissertação investiga a avaliação entre prompts (Cross Prompts), específica por competência, formalizada como f1r (x, p) = s, em que, no conjunto de teste, os modelos devem avaliar redações em prompts não vistos ao longo de cinco competências, cada uma pontuada em uma escala ordinal de seis níveis {0, 40, 80, 120, 160, 200}. A investigação compara sistematicamente três classes de modelos: baseadas em (72 características linguísticas), apenas de codificador (de 109 milhões a 1,5 bilhão de parâmetros) e arquiteturas de decodificador divididas entre modelos de linguagem de pequeno porte que foram treinados por ajuste fino (de 2.4 a 14.7 bilhões de parâmetros) e modelos em (incluindo modelos proprietários e o com 671 bilhões de parâmetros). Sob diferentes paradigmas, variando desde o acesso à informação até estratégias de condicionamento pela rubrica de avaliação, os experimentos revelam que nenhuma configuração atende a todas as necessidades de avaliação: modelos codificadores se destacam em competências mecânicas (fluência, coesão), apesar de não conseguirem acessar os temas das redações devido a limitações da janela de contexto; modelos decodificadores alcançam desempenho superior em argumentação (QWK 0.73) e estilo (QWK 0.60) quando recebem o contextocompleto; e o pré-treinamento específico da língua beneficia apenas aspectos linguísticos superficiais, sem melhorar o raciocínio necessários para tarefas mais complexas. Os modelos de melhor desempenho alcançam QWK de 0.60-0.73 nas competências, permanecendo 11-23 pontos abaixo do acordo entre avaliadores humanos (0.72-0.85), com as maiores oportunidades na avaliação de estilo e persuasão. Esses resultados demonstram que diferentes competências exigem abordagens computacionais fundamentalmente distintas, variando de codificadores leves para avaliação gramatical a modelos decodificadores massivos para análise argumentativa, orientando a implantação estratégica em que as instituições devem aceitar concessões substanciais de desempenho em relação à avaliação humana
- Imprenta:
- Data da defesa: 15.09.2025
- Status:
- Artigo publicado em periódico de acesso aberto (Gold Open Access)
- Versão do Documento:
- Versão publicada (Published version)
- Acessar versão aberta:
-
ABNT
BARBOSA, André. Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays. 2025. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2025. Disponível em: https://teses.usp.br/teses/disponiveis/45/45134/tde-25092025-141609/. Acesso em: 31 mar. 2026. -
APA
Barbosa, A. (2025). Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://teses.usp.br/teses/disponiveis/45/45134/tde-25092025-141609/ -
NLM
Barbosa A. Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays [Internet]. 2025 ;[citado 2026 mar. 31 ] Available from: https://teses.usp.br/teses/disponiveis/45/45134/tde-25092025-141609/ -
Vancouver
Barbosa A. Automated essay scoring for Brazilian Portuguese: evidence from Cross-Prompt evaluation of ENEM essays [Internet]. 2025 ;[citado 2026 mar. 31 ] Available from: https://teses.usp.br/teses/disponiveis/45/45134/tde-25092025-141609/
Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).
Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
