Predição da complexidade sentencial do português brasileiro escrito, usando métricas linguísticas, psicolinguísticas e de rastreamento ocular (2021)
- Authors:
- Autor USP: LEAL, SIDNEY EVALDO - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- Subjects: CORPUS; LINGUÍSTICA COMPUTACIONAL; ANÁLISE DE TEXTO
- Keywords: Eye-tracking; Inteligibilidade; Predição de complexidade de sentenças; Rastreamento ocular; Readability; Sentence-based readability prediction; Simplificação de textos; Text simplification; Transfer Learning; Transfer learning
- Agências de fomento:
- Language: Português
- Abstract: O INAF (Indicador de Alfabetismo Funcional), criado para mensurar o nível de letramento da população brasileira entre 15 e 64 anos, apontou, em seu relatório de 2018, que somente um em cada dez brasileiros adultos é considerado letrado de forma proficiente. No setor da agropecuária, apenas uma em cada cem pessoas consegue ler e compreender textos sem enfrentar dificuldades. Isso significa que a grande maioria dos produtores rurais pode não se beneficiar das tecnologias publicadas por entidades de pesquisa como a Embrapa (Empresa Brasileira de Pesquisa Agropecuária). Uma solução bastante viável para esse problema é simplificar essas publicações para torná-las mais acessíveis para público alvo. Uma das etapas da simplificação é a tarefa conhecida como predição da complexidade sentencial, responsável por identificar as sentenças mais complexas de um texto, as quais serão alvo das operações de simplificação subsequentes. Para o português brasileiro, antes do presente trabalho, a tarefa de predição de complexidade sentencial ainda não havia sido avaliada e nem havia córpus criados para o aprendizado da tarefa. Outra lacuna observada foi a falta de um córpus com métricas de rastreamento ocular, semelhante aos disponíveis em inglês e utilizados pelos trabalhos internacionais mais recentes sobre predição de complexidade. O objetivo principal desta pesquisa é avaliar métodos de predição de complexidade sentencial para o português brasileiro escrito, a fim de criar um método no estadoda arte para a tarefa. Para implementar esse método, projetou-se um ambiente denominado Simpligo, que tem por objetivo auxiliar na simplificação de textos, especialmente os produzidos pela Embrapa para o domínio rural. Para atingir esses objetivos, foram criados dois córpus: um com as sentenças alinhadas do PorSimples (CASELI et al., 2009), e um com métricas de rastreamento ocular e normas de previsibilidade de estudantes do ensino superior. Também disponibilizou-se a versão de 2021 da ferramenta NILC-Metrix, de código-fonte aberto, com 200 métricas linguísticas e psicolinguísticas, as quais são utilizadas nas avaliações dos métodos de predição de complexidade sentencial . Por fim, nesta pesquisa foram avaliadas abordagens de ranking e transfer learning, sendo que esta última, com a adição das métricas de rastreamento ocular, atingiu o estado da arte para a tarefa de predição da complexidade sentencial na língua portuguesa, com 97,5% de acurácia. Este trabalho contribui com novos córpus, métodos e aplicações, voltados à tarefa de avaliação da complexidade sentencial. Além disso, ao serem disponibilizados publicamente todos os recursos desenvolvidos, torna-se possível sua utilização em outras tarefas e investigações.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2021
- Data da defesa: 01.06.2021
-
ABNT
LEAL, Sidney Evaldo. Predição da complexidade sentencial do português brasileiro escrito, usando métricas linguísticas, psicolinguísticas e de rastreamento ocular. 2021. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2021. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16072021-115303/. Acesso em: 27 jul. 2024. -
APA
Leal, S. E. (2021). Predição da complexidade sentencial do português brasileiro escrito, usando métricas linguísticas, psicolinguísticas e de rastreamento ocular (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16072021-115303/ -
NLM
Leal SE. Predição da complexidade sentencial do português brasileiro escrito, usando métricas linguísticas, psicolinguísticas e de rastreamento ocular [Internet]. 2021 ;[citado 2024 jul. 27 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16072021-115303/ -
Vancouver
Leal SE. Predição da complexidade sentencial do português brasileiro escrito, usando métricas linguísticas, psicolinguísticas e de rastreamento ocular [Internet]. 2021 ;[citado 2024 jul. 27 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16072021-115303/ - Complexidade textual e suas tarefas relacionadas
- Métodos de clusterização para a criação de corpus para rastreamento ocular durante a leitura de parágrafos em português
- Avaliação automática da complexidade de sentenças do português brasileiro para o domínio rural
- Using eye-tracking data to predict the readability of brazilian portuguese sentences in single-task, multi-task and sequential transfer learning approaches
- RastrOS Project: natural language processing contributions to the development of an eye‑tracking corpus with predictability norms for brazilian portuguese
- NILC-Metrix: assessing the complexity of written and spoken language in Brazilian Portuguese
- Evaluating semantic similarity methods to build semantic predictability norms of reading data
- Measuring the impact of readability features in fake news Detection
- Text complexity of open educational resources in Portuguese: mixing written and spoken registers in a multi-task approach
- Predição da complexidade textual de recursos educacionais abertos em português
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas