Exportar registro bibliográfico

Avaliação de métodos para a extração automática de terminologia de textos em português (2004)

  • Authors:
  • Autor USP: TELINE, MARIA FERNANDA - ICMC
  • Unidade: ICMC
  • Assunto: LINGUÍSTICA COMPUTACIONAL
  • Language: Português
  • Abstract: Nas últimas décadas, o grande avanço da ciência e tecnologia com suas invenções, novos materiais, equipamentos e métodos gerou a necessidade da criação de novos nomes, chamados aqui de termos, e alterações nos seus significados, para nomear adequadamente esses avanços, principalmente em áreas dinâmicas como a Ciência da Computação, a Genética e a Medicina. Dado que o desenvolvimento de repertórios terminológicos é um trabalho difícil quando realizado manualmente, lingüistas computacionais, lingüistas aplicados, tradutores, intérpretes, jornalistas científicos têm se interessado pela extração automática de terminologias (EAT) de textos. O crescimento explosivo de dados do tipo texto disponíveis na Web foi um fator contribuinte para a facilidade na construção de córpus eletrônicos de textos técnicos e científicos, propiciando a implementação de métodos de EAT. A EAT tem sido de grande interesse para todos os tipos de aplicações do Processamento de Línguas Naturais (PLN) que trabalham com domínios especializados e que, conseqüentemente, necessitam de um vocabulário especial. O objetivo desse projeto de mestrado foi avaliar métodos de EAT para o português do Brasil, ainda carente do tratamento automatizado para a criação de terminologias. Especificamente, foram implementados e avaliados métodos de EAT das abordagens estatística, lingüística e híbrida para unigramas, bigramas e trigramas a partir de um córpus de textos do domínio deRevestimentos Cerâmicos. Esses métodos empregam recursos simples como (a) uma stoplist para eliminar palavras como advérbios, (b) padrões sintáticos para os termos do domínio, por exemplo &ltsubstantivo adjetivo&gt, &ltsubstantivo preposição adjetivo&gt, levantados após a aplicação de um etiquetador Part-Of-Speech, (c) uma lista de expressões e palavras características de definições, descrições, classificações como 'definido(a)(s) como', ) 'caracterizado(a)', 'conhecido(a)(s) como', 'significa(m)', entre outras que são concentradoras de termos. As medidas estatísticas utilizadas nos métodos estatísticos e híbridos para indicar a relevância de termos no domínio são a informação mútua, o log-likelihood, o coeficiente dice e a freqüência. Os métodos propostos foram avaliados pelas medidas de precisão, revocação e medida F, utilizando uma lista de referência da área de Revestimentos Cerâmicos. Os melhores resultados da precisão são do método híbrido para unigramas (7%), bigramas (17%) e trigramas (26%), enquanto que a revocação é melhor nos métodos puramente lingüísticos tanto para unigramas (95%) como para bigramas (90%) e trigramas (100%). Os melhores valores da medida F foram dos métodos híbridos (11%, 17% e 33% para uni, bi e trigramas, respectivamente). Esses valores, embora tenham se apresentado os mais relevantes, foram bastante inferiores àqueles normalmente encontrados na literatura que trata da EAT, cujo desempenho obtido para essa tarefa fica emtorno de 60%. Esses valores motivam a busca e implementação de métodos mais avançados para tratar o português, bem como a obtenção de recursos mais elaborados, a fim de encontrar resultados mais significantes para essa tarefa, facilitando, conseqüentemente o trabalho do especialista da área, que vai analisar os candidatos a termos extraídos pelos métodos automáticos, visto que é possível fornecer a ele informações mais precisas (poucas palavras da língua geral) e completas (uma maior quantidade de termos) sobre o córpus considerado
  • Imprenta:
  • Data da defesa: 19.03.2004
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      TELINE, Maria Fernanda; ALUISIO, Sandra Maria. Avaliação de métodos para a extração automática de terminologia de textos em português. 2004.Universidade de São Paulo, São Carlos, 2004. Disponível em: < http://www.teses.usp.br/teses/disponiveis/55/55134/tde-25052004-012204/ >.
    • APA

      Teline, M. F., & Aluisio, S. M. (2004). Avaliação de métodos para a extração automática de terminologia de textos em português. Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-25052004-012204/
    • NLM

      Teline MF, Aluisio SM. Avaliação de métodos para a extração automática de terminologia de textos em português [Internet]. 2004 ;Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-25052004-012204/
    • Vancouver

      Teline MF, Aluisio SM. Avaliação de métodos para a extração automática de terminologia de textos em português [Internet]. 2004 ;Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-25052004-012204/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2021