Exportar registro bibliográfico

Anotação automática semissupervisionada de papéis semânticos para o português do Brasil (2013)

  • Authors:
  • Autor USP: MANCHEGO, FERNANDO EMILIO ALVA - ICMC
  • Unidade: ICMC
  • Sigla do Departamento: SCC
  • Subjects: APRENDIZADO COMPUTACIONAL; PROCESSAMENTO DE LINGUAGEM NATURAL; LINGUÍSTICA COMPUTACIONAL; SEMÂNTICA DE PROGRAMAÇÃO
  • Keywords: Anotação de papéis semânticos; Aprendizado semissupervisionado; Natural language processing; Processamento de língua natural; Semantic role labeling; Semi-supervised learning
  • Language: Português
  • Abstract: A anotação de papéis semânticos (APS) e uma tarefa do processamento de lngua natural (PLN) que permite analisar parte do significado das sentenças através da detecção dos participantes dos eventos (e dos eventos em si) que estão sendo descritos nelas, o que e essencial para que os computadores possam usar efetivamente a informação codificada no texto. A maior parte das pesquisas desenvolvidas em APS tem sido feita para textos em inglês, considerando as particularidades gramaticais e semânticas dessa lngua, o que impede que essas ferramentas e resultados sejam diretamente transportáveis para outras línguas como o português. A maioria dos sistemas de APS atuais emprega metodos de aprendizado de máquina supervisionado e, portanto, precisa de um corpus grande de senten cas anotadas com papéis semânticos para aprender corretamente a tarefa. No caso do português do Brasil, um recurso lexical que provê este tipo de informação foi recentemente disponibilizado: o PropBank.Br. Contudo, em comparação com os corpora para outras línguas como o inglês, o corpus fornecido por este projeto e pequeno e, portanto, não permitiria que um classificador treinado supervisionadamente realizasse a tarefa de anotação com alto desempenho. Para tratar esta dificuldade, neste trabalho emprega-se uma abordagem semissupervisionada capaz de extrair informação relevante tanto dos dados anotados disponíveis como de dados não anotados, tornando-a menos dependente do corpus de treinamento. Implementa-seo algoritmo self-training com modelos de regressão logística (ou máxima entropia) como classificador base, para anotar o corpus Bosque (a seção correspondente ao CETENFolha) da Floresta Sinta(c)tica com as etiquetas do PropBank.Br. Ao algoritmo original se incorpora balanceamento e medidas de similaridade entre os argumentos de um verbo específico para melhorar o desempenho na tarefa de classificação de argumentos. Usando um benchmark de avaliação implementado neste trabalho, a abordagem semissupervisonada proposta obteve um desempenho estatisticamente comparável ao de um classificador treinado supervisionadamente com uma maior quantidade de dados anotados (80,5 vs. 82,3 de \'F IND. 1\', p > 0, 01)
  • Imprenta:
  • Data da defesa: 22.01.2013
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      MANCHEGO, Fernando Emilio Alva. Anotação automática semissupervisionada de papéis semânticos para o português do Brasil. 2013. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2013. Disponível em: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-14032013-150816/. Acesso em: 16 out. 2024.
    • APA

      Manchego, F. E. A. (2013). Anotação automática semissupervisionada de papéis semânticos para o português do Brasil (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-14032013-150816/
    • NLM

      Manchego FEA. Anotação automática semissupervisionada de papéis semânticos para o português do Brasil [Internet]. 2013 ;[citado 2024 out. 16 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-14032013-150816/
    • Vancouver

      Manchego FEA. Anotação automática semissupervisionada de papéis semânticos para o português do Brasil [Internet]. 2013 ;[citado 2024 out. 16 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-14032013-150816/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2024