Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil (2023)
- Authors:
- Autor USP: CABEZUDO, MARCO ANTONIO SOBREVILLA - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- DOI: 10.11606/T.55.2023.tde-19042023-103916
- Subjects: PORTUGUÊS DO BRASIL; LINGUÍSTICA COMPUTACIONAL; LINGUAGEM NATURAL
- Keywords: Abstract meaning representation; Brazilian portuguese; Entorno de pocos recursos; Geração de linguagem natural; Low-resource setting; Natural language generation; Português brasileiro; Representação semântica abstrata
- Agências de fomento:
- Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
- Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)
Processo FAPESP: 2019/07665-4 - Financiado pela IBM Corporation and Center for Artificial Intelligence (C4AI)
- Financiado pela Center for Mathematical Sciences Applied to Industry (CeMEAI)(FAPESP)
- Language: Português
- Abstract: Abstract Meaning Representation é um formalismo semântico que codifica o significado de uma sentença como um grafo. Essa representação inclui várias informações semânticas, tais como os papéis semânticos, correferência, entidades nomeadas, entre outras. AMR tornou-se um tópico de pesquisa relevante nas áreas de representação semântica, análise semântica e geração de linguagem natural. Seu sucesso se baseia em sua tentativa de abstrair as idiossincrasias sintáticas e seu amplo uso de recursos linguísticos maduros, como o PropBank. A tarefa de geração de texto a partir de AMR (AMR-para-Texto) visa produzir um texto que transmita o significado codificado por um grafo AMR. Para o inglês, isso tem sido amplamente estudado, e várias abordagens como a tradução automática estatística, transdutores grafo/árvore a texto e, recentemente, modelos neurais têm sido explorados. Além disso, o corpus usado contém milhares de instâncias, possibilitando explorar diversos métodos e atingir altos desempenhos. Por outro lado, obter corpora de alta qualidade limita a pesquisa em outras línguas (pois geralmente envolve uma tarefa de anotação difícil e cara), resultando em corpora menores e na incapacidade de replicação de métodos e/ou obtenção de resultados semelhantes aos obtidos no Inglês. Para o Português Brasileiro, existe um corpus AMR contendo frases anotadas do livro O Pequeno Príncipe e vários analisadores AMR desenvolvidos. Nesse contexto, esta tese teve como objetivo investigar métodos degeração AMR-para-Texto para o Português Brasileiro, contribuindo para o desenvolvimento dessa linha de pesquisa. Dessa forma, primeiro adaptamos as diretrizes de AMR para o Português Brasileiro, construímos um novo corpus de AMR multigênero e fizemos uma análise de casos difíceis nos gênero de notícias jornalísticas e comentários opinativos. Além disso, adaptamos alguns métodos de geração AMR-para-Texto e os testamos em nosso corpus. Posteriormente, exploramos diversas estratégias para superar o tamanho limitado do corpus. Em particular, exploramos estratégias de língua cruzada usando o corpus AMR em Inglês e estratégias aprimoradas que visavam usar recursos (como modelos pré-treinados) e tarefas (como geração de paráfrases) para melhorar o desempenho dos mesmos. Entre os resultados, avaliamos as potencialidades e limitações de todas as estratégias, com especial enfoque para aquelas úteis para línguas com poucos recursos, sendo que as abordagens de língua cruzada produziram os melhores resultados. As contribuições desta tese também incluem os vários recursos AMR disponibilizados
- Imprenta:
- Publisher place: São Carlos
- Date published: 2023
- Data da defesa: 06.02.2023
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
CABEZUDO, Marco Antonio Sobrevilla. Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil. 2023. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2023. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-19042023-103916/. Acesso em: 24 abr. 2024. -
APA
Cabezudo, M. A. S. (2023). Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-19042023-103916/ -
NLM
Cabezudo MAS. Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil [Internet]. 2023 ;[citado 2024 abr. 24 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-19042023-103916/ -
Vancouver
Cabezudo MAS. Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil [Internet]. 2023 ;[citado 2024 abr. 24 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-19042023-103916/ - Investigação de métodos de desambiguação lexical de sentidos de verbos do português do Brasil
- Public riots in Twitter: domain-based event filtering during civil unrest
- Efficient strategies for hierarchical text classification: external knowledge and auxiliary tasks
- NILC at SR'20: exploring pre-trained models in surface realisation
- Low-resource AMR-to-Text generation: a study on brazilian portuguese
- Towards a general abstract meaning representation corpus for brazilian portuguese
- NILC at WebNLG+: pretrained sequence-to-sequence models on RDF-to-text generation
- Exploring a POS-based two-stage approach for improving low-resource AMR-to-text generation
- Back-translation as strategy to tackle the lack of corpus in natural language generation from semantic representations
- The AMR-PT corpus and the semantic annotation of challenging sentences from journalistic and opinion texts
Informações sobre o DOI: 10.11606/T.55.2023.tde-19042023-103916 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas