Predição da complexidade sentencial do português brasileiro escrito, usando métricas linguísticas, psicolinguísticas e de rastreamento ocular

Leal, Sidney Evaldo; Aluísio, Sandra Maria

Tese

Predição da complexidade sentencial do português brasileiro escrito, usando métricas linguísticas, psicolinguísticas e de rastreamento ocular (2021)

Authors:
- Leal, Sidney Evaldo
- Aluísio, Sandra Maria (Orientador)
Autor USP: LEAL, SIDNEY EVALDO - ICMC
Unidade: ICMC
Sigla do Departamento: SCC
Subjects: CORPUS; LINGUÍSTICA COMPUTACIONAL; ANÁLISE DE TEXTO
Keywords: Eye-tracking; Inteligibilidade; Predição de complexidade de sentenças; Rastreamento ocular; Readability; Sentence-based readability prediction; Simplificação de textos; Text simplification; Transfer Learning; Transfer learning
Agências de fomento:
- Finaciado pela FAPESP
Language: Português
Abstract: O INAF (Indicador de Alfabetismo Funcional), criado para mensurar o nível de letramento da população brasileira entre 15 e 64 anos, apontou, em seu relatório de 2018, que somente um em cada dez brasileiros adultos é considerado letrado de forma proficiente. No setor da agropecuária, apenas uma em cada cem pessoas consegue ler e compreender textos sem enfrentar dificuldades. Isso significa que a grande maioria dos produtores rurais pode não se beneficiar das tecnologias publicadas por entidades de pesquisa como a Embrapa (Empresa Brasileira de Pesquisa Agropecuária). Uma solução bastante viável para esse problema é simplificar essas publicações para torná-las mais acessíveis para público alvo. Uma das etapas da simplificação é a tarefa conhecida como predição da complexidade sentencial, responsável por identificar as sentenças mais complexas de um texto, as quais serão alvo das operações de simplificação subsequentes. Para o português brasileiro, antes do presente trabalho, a tarefa de predição de complexidade sentencial ainda não havia sido avaliada e nem havia córpus criados para o aprendizado da tarefa. Outra lacuna observada foi a falta de um córpus com métricas de rastreamento ocular, semelhante aos disponíveis em inglês e utilizados pelos trabalhos internacionais mais recentes sobre predição de complexidade. O objetivo principal desta pesquisa é avaliar métodos de predição de complexidade sentencial para o português brasileiro escrito, a fim de criar um método no estadoda arte para a tarefa. Para implementar esse método, projetou-se um ambiente denominado Simpligo, que tem por objetivo auxiliar na simplificação de textos, especialmente os produzidos pela Embrapa para o domínio rural. Para atingir esses objetivos, foram criados dois córpus: um com as sentenças alinhadas do PorSimples (CASELI et al., 2009), e um com métricas de rastreamento ocular e normas de previsibilidade de estudantes do ensino superior. Também disponibilizou-se a versão de 2021 da ferramenta NILC-Metrix, de código-fonte aberto, com 200 métricas linguísticas e psicolinguísticas, as quais são utilizadas nas avaliações dos métodos de predição de complexidade sentencial . Por fim, nesta pesquisa foram avaliadas abordagens de ranking e transfer learning, sendo que esta última, com a adição das métricas de rastreamento ocular, atingiu o estado da arte para a tarefa de predição da complexidade sentencial na língua portuguesa, com 97,5% de acurácia. Este trabalho contribui com novos córpus, métodos e aplicações, voltados à tarefa de avaliação da complexidade sentencial. Além disso, ao serem disponibilizados publicamente todos os recursos desenvolvidos, torna-se possível sua utilização em outras tarefas e investigações.
Imprenta:
- Publisher place: São Carlos
- Date published: 2021
Data da defesa: 01.06.2021

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

LEAL, Sidney Evaldo. Predição da complexidade sentencial do português brasileiro escrito, usando métricas linguísticas, psicolinguísticas e de rastreamento ocular. 2021. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2021. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16072021-115303/. Acesso em: 07 maio 2026.
APA

Leal, S. E. (2021). Predição da complexidade sentencial do português brasileiro escrito, usando métricas linguísticas, psicolinguísticas e de rastreamento ocular (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16072021-115303/
NLM

Leal SE. Predição da complexidade sentencial do português brasileiro escrito, usando métricas linguísticas, psicolinguísticas e de rastreamento ocular [Internet]. 2021 ;[citado 2026 maio 07 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16072021-115303/
Vancouver

Leal SE. Predição da complexidade sentencial do português brasileiro escrito, usando métricas linguísticas, psicolinguísticas e de rastreamento ocular [Internet]. 2021 ;[citado 2026 maio 07 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16072021-115303/

ReP

Exportar registro bibliográfico

Predição da complexidade sentencial do português brasileiro escrito, usando métricas linguísticas, psicolinguísticas e de rastreamento ocular (2021)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Predição da complexidade sentencial do português brasileiro escrito, usando métricas linguísticas, psicolinguísticas e de rastreamento ocular (2021)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: