Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil

Cabezudo, Marco Antonio Sobrevilla; Pardo, Thiago Alexandre Salgueiro

Tese

Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil (2023)

Authors:
- Cabezudo, Marco Antonio Sobrevilla
- Pardo, Thiago Alexandre Salgueiro (Orientador)
Autor USP: CABEZUDO, MARCO ANTONIO SOBREVILLA - ICMC
Unidade: ICMC
Sigla do Departamento: SCC
DOI: 10.11606/T.55.2023.tde-19042023-103916
Subjects: PORTUGUÊS DO BRASIL; LINGUÍSTICA COMPUTACIONAL; LINGUAGEM NATURAL
Keywords: Abstract meaning representation; Brazilian portuguese; Entorno de pocos recursos; Geração de linguagem natural; Low-resource setting; Natural language generation; Português brasileiro; Representação semântica abstrata
Agências de fomento:
Language: Português
Abstract: Abstract Meaning Representation é um formalismo semântico que codifica o significado de uma sentença como um grafo. Essa representação inclui várias informações semânticas, tais como os papéis semânticos, correferência, entidades nomeadas, entre outras. AMR tornou-se um tópico de pesquisa relevante nas áreas de representação semântica, análise semântica e geração de linguagem natural. Seu sucesso se baseia em sua tentativa de abstrair as idiossincrasias sintáticas e seu amplo uso de recursos linguísticos maduros, como o PropBank. A tarefa de geração de texto a partir de AMR (AMR-para-Texto) visa produzir um texto que transmita o significado codificado por um grafo AMR. Para o inglês, isso tem sido amplamente estudado, e várias abordagens como a tradução automática estatística, transdutores grafo/árvore a texto e, recentemente, modelos neurais têm sido explorados. Além disso, o corpus usado contém milhares de instâncias, possibilitando explorar diversos métodos e atingir altos desempenhos. Por outro lado, obter corpora de alta qualidade limita a pesquisa em outras línguas (pois geralmente envolve uma tarefa de anotação difícil e cara), resultando em corpora menores e na incapacidade de replicação de métodos e/ou obtenção de resultados semelhantes aos obtidos no Inglês. Para o Português Brasileiro, existe um corpus AMR contendo frases anotadas do livro O Pequeno Príncipe e vários analisadores AMR desenvolvidos. Nesse contexto, esta tese teve como objetivo investigar métodos degeração AMR-para-Texto para o Português Brasileiro, contribuindo para o desenvolvimento dessa linha de pesquisa. Dessa forma, primeiro adaptamos as diretrizes de AMR para o Português Brasileiro, construímos um novo corpus de AMR multigênero e fizemos uma análise de casos difíceis nos gênero de notícias jornalísticas e comentários opinativos. Além disso, adaptamos alguns métodos de geração AMR-para-Texto e os testamos em nosso corpus. Posteriormente, exploramos diversas estratégias para superar o tamanho limitado do corpus. Em particular, exploramos estratégias de língua cruzada usando o corpus AMR em Inglês e estratégias aprimoradas que visavam usar recursos (como modelos pré-treinados) e tarefas (como geração de paráfrases) para melhorar o desempenho dos mesmos. Entre os resultados, avaliamos as potencialidades e limitações de todas as estratégias, com especial enfoque para aquelas úteis para línguas com poucos recursos, sendo que as abordagens de língua cruzada produziram os melhores resultados. As contribuições desta tese também incluem os vários recursos AMR disponibilizados
Imprenta:
- Publisher place: São Carlos
- Date published: 2023
Data da defesa: 06.02.2023

Informações sobre a disponibilidade de versões do artigo em acesso aberto coletadas automaticamente via oaDOI API (Unpaywall).

Status:

Artigo publicado em periódico de acesso aberto (Gold Open Access)

Versão do Documento:

Versão publicada (Published version)

Acessar versão aberta:

PDF de acesso aberto

Por se tratar de integração com serviço externo, podem existir diferentes versões do trabalho (como preprints ou postprints), que podem diferir da versão publicada.

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

CABEZUDO, Marco Antonio Sobrevilla. Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil. 2023. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2023. Disponível em: https://teses.usp.br/teses/disponiveis/55/55134/tde-19042023-103916/. Acesso em: 10 abr. 2026.
APA

Cabezudo, M. A. S. (2023). Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://teses.usp.br/teses/disponiveis/55/55134/tde-19042023-103916/
NLM

Cabezudo MAS. Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil [Internet]. 2023 ;[citado 2026 abr. 10 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-19042023-103916/
Vancouver

Cabezudo MAS. Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil [Internet]. 2023 ;[citado 2026 abr. 10 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-19042023-103916/

ReP

Exportar registro bibliográfico

Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil (2023)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil (2023)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: