Anotação automática de papéis semânticos de textos jornalísticos e de opinião sobre árvores sintáticas não revisadas (2015)
- Authors:
- Autor USP: HARTMANN, NATHAN SIEGLE - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- Subjects: PROCESSAMENTO DE LINGUAGEM NATURAL; PORTUGUÊS DO BRASIL; LINGUÍSTICA COMPUTACIONAL; CORPUS
- Keywords: Anotação de papéis semânticos; Brazilian portuguese; Natural language processing; Semantic role labeling
- Language: Português
- Abstract: Contexto: A Anotação de Papéis Semânticos (APS) é uma tarefa da área de Processamento de Línguas Naturais (PLN) que permite detectar os eventos descritos nas sentenças e os participantes destes eventos (Palmer et al., 2010). A APS responde perguntas como Quem?, Quando?, Onde?, O quê?, e Por quê?, dentre outras e, sendo assim, é importante para várias aplicações de PLN. Para anotar automaticamente um texto com papéis semânticos, a maioria dos sistemas atuais emprega técnicas de Aprendizagem de Máquina (AM). Porém, alguns papéis semânticos são previsíveis e, portanto, não necessitam ser tratados via AM. Além disso, a grande maioria das pesquisas desenvolvidas em APS tem dado foco ao inglês, considerando as particularidades gramaticais e semânticas dessa língua, o que impede que essas ferramentas e resultados sejam diretamente transportados para outras línguas. Revisão da Literatura: Para o português do Brasil, há três trabalhos finalizados recentemente que lidam com textos jornalísticos, porém com performance inferior ao estado da arte para o inglês. O primeiro (Alva- Manchego, 2013) obteve 79,6 de F1 na APS sobre o córpus PropBank.Br; o segundo (Fonseca, 2013), sem fazer uso de um treebank para treinamento, obteve 68,0 de F1 sobre o córpus PropBank.Br; o terceiro (Sequeira et al., 2012) realizou anotação apenas dos papéis Arg0 (sujeito prototípico) e Arg1 (paciente prototípico) no córpus CETEMPúblico, com performance de 31,3 pontos de F1 para o primeiro papel e de 19,0 de F1para o segundo. Objetivos: O objetivo desse trabalho de mestrado é avançar o estado da arte na APS do português brasileiro no gênero jornalístico, avaliando o desempenho de um sistema de APS treinado com árvores sintáticas geradas por um parser automático (Bick, 2000), sem revisão humana, usando uma amostragem do córpus PLN-Br. Como objetivo adicional, foi avaliada a robustez da tarefa de APS frente a gêneros diferentes, testando o sistema de APS, treinado no gênero jornalístico, em uma amostra de revisões de produtos da web. Esse gênero não foi explorado até então na área de APS e poucas de suas características foram formalizadas. Resultados: Foi compilado o primeiro córpus de opiniões sobre produtos da web, o córpus Buscapé (Hartmann et al., 2014). A diferença de performance entre um sistema treinado sobre árvores revisadas e outro sobre árvores não revisadas ambos no gênero jornalístico foi de 10,48 pontos de F1. A troca de gênero entre as fases de treinamento e teste, em APS, é possível, com perda de performance de 3,78 pontos de F1 (córpus PLN-Br e Buscapé, respectivamente). Foi desenvolvido um sistema de inserção de sujeitos não expressos no texto, com precisão de 87,8% no córpus PLN-Br e de 94,5% no córpus Buscapé. Foi desenvolvido um sistema, baseado em regras, para anotar verbos auxiliares com papéis semânticos modificadores, com confiança de 96,76% no córpus PLN-Br. Conclusões: Foi mostrado que o sistema de Alva-Manchego (2013), baseado em árvores sintáticas,desempenha melhor APS do que o sistema de Fonseca (2013), independente de árvores sintáticas. Foi mostrado que sistemas de APS treinados sobre árvores sintáticas não revisadas desempenham melhor APS sobre árvores não revisadas do que um sistema treinado sobre dados gold-standard.Mostramos que a explicitação de sujeitos não expressos nos textos do Buscapé, um córpus do gênero de opinião de produtos na web, melhora a performance da sua APS. Também mostramos que é possível anotar verbos auxiliares com papéis semânticos modificadores, utilizando um sistema baseado em regras, com alta confiança. Por fim, mostramos que o uso do sentido do verbo, como feature de AM, para APS, não melhora a perfomance dos sistemas treinados sobre o PLN-Br e o Buscapé, por serem córpus pequenos
- Imprenta:
- Publisher place: São Carlos
- Date published: 2015
- Data da defesa: 25.06.2015
-
ABNT
HARTMANN, Nathan Siegle. Anotação automática de papéis semânticos de textos jornalísticos e de opinião sobre árvores sintáticas não revisadas. 2015. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2015. Disponível em: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-27112015-140053/. Acesso em: 02 nov. 2024. -
APA
Hartmann, N. S. (2015). Anotação automática de papéis semânticos de textos jornalísticos e de opinião sobre árvores sintáticas não revisadas (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-27112015-140053/ -
NLM
Hartmann NS. Anotação automática de papéis semânticos de textos jornalísticos e de opinião sobre árvores sintáticas não revisadas [Internet]. 2015 ;[citado 2024 nov. 02 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-27112015-140053/ -
Vancouver
Hartmann NS. Anotação automática de papéis semânticos de textos jornalísticos e de opinião sobre árvores sintáticas não revisadas [Internet]. 2015 ;[citado 2024 nov. 02 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-27112015-140053/ - Adaptação lexical automática em textos informativos para o Ensino Fundamental
- A dataset for the evaluation of lexical simplification in portuguese for children
- LexPorBr infantil: uma base lexical tripartida e com interface web de textos ouvidos, produzidos, e lidos por crianças
- Adaptação lexical automática em textos informativos do português brasileiro para o ensino fundamental
- Avaliação do uso da diversidade contextual e da frequência para a tarefa de identificação de palavras complexas em simplificação lexical
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas