Exportar registro bibliográfico


Metrics:

Classificação semanticamente enriquecida por expressões do domínio (2022)

  • Authors:
  • Autor USP: SCHEICHER, RICARDO BRIGATO - ICMC
  • Unidade: ICMC
  • Sigla do Departamento: SCC
  • DOI: 10.11606/T.55.2022.tde-16022023-172628
  • Subjects: LINGUÍSTICA COMPUTACIONAL; REPRESENTAÇÃO DE CONHECIMENTO; AQUISIÇÃO DE CONHECIMENTO; PROCESSAMENTO DE TEXTO
  • Keywords: Classificação semântica de textos; Extração de termos; Mineração de textos; Representação semântica de textos; Terms extraction; Text mining; Text semantic classification; Text semantic representation
  • Agências de fomento:
  • Language: Português
  • Abstract: Com o aumento da quantidade e variedade de textos em formato digital, seja em redes sociais, web ou internamente nas organizações, as técnicas de Mineração de Textos tornam-se essenciais no apoio à extração e organização desse conhecimento. Em tarefas de classificação de documentos, a representação dos dados tem um alto impacto na qualidade da solução final e modelos tradicionais de representação textual, como a Bag-of-Words (BoW), limitam-se apenas ao léxico impossibilitando a distinção de documentos com vocabulário semelhante e ideias diferentes sobre um mesmo assunto. Problemas de diferentes níveis de complexidade semântica possuem determinadas características que influenciam diretamente no desempenho de tarefas de classificação. Nesse sentido, o uso de informações emanticamente mais ricas em conjunto com a representação tradicional BoW permite atingir resultados mais eficazes em tarefas de Mineração de Textos. Expressões do domínio são consideradas informações enriquecidas que carregam consigo um certo nível semântico. A representação generalized of Expressions of Domain (BoED) é construída a partir e listas de termos do domínio e identificadores de classe, que geram as expressões do domínio e pode ser aplicada em diversas áreas do conhecimento como forma de informação semanticamente enriquecida. Com o propósito geral de avançar as pesquisas na área de Mineração de Textos e melhorar resultados de classificação de nível semâmantico usando informações enriquecidas, nestatese de doutorado foram desenvolvidas e a avaliadas as seguintes abordagens: (i) proposta de três diferentes versões das representações enriquecidas semanticamente gBoED, (ii) método de classificação semanticamente enriquecida por expressões do domínio, (iii) método semiautomático de extração de termos e construção de representação semântica baseado em regras morfossintáticas, (iv) método semiautomático de extração de termos baseado em modelos de linguagem BERT, (v) estudo de caso de classificação semântica em pedidos de acesso à informação. Os métodos foram desenvolvidos e avaliados em dez coleções de documentos diferentes, em idioma português e inglês, juntamente com as diferentes versões de representações semanticamente enriquecidas. Os resultados indicam que os métodos propostos são promissores, possibilitando melhorar a acurácia de tarefas de classificação semântica em domínio restrito, quando comparada aos resultados com o método tradicional BoW.
  • Imprenta:
  • Data da defesa: 07.12.2022
  • Acesso à fonteAcesso à fonteDOI
    Informações sobre o DOI: 10.11606/T.55.2022.tde-16022023-172628 (Fonte: oaDOI API)
    • Este periódico é de acesso aberto
    • Este artigo é de acesso aberto
    • URL de acesso aberto
    • Cor do Acesso Aberto: gold
    • Licença: cc-by-nc-sa

    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      SCHEICHER, Ricardo Brigato. Classificação semanticamente enriquecida por expressões do domínio. 2022. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2022. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16022023-172628/. Acesso em: 29 dez. 2025.
    • APA

      Scheicher, R. B. (2022). Classificação semanticamente enriquecida por expressões do domínio (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16022023-172628/
    • NLM

      Scheicher RB. Classificação semanticamente enriquecida por expressões do domínio [Internet]. 2022 ;[citado 2025 dez. 29 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16022023-172628/
    • Vancouver

      Scheicher RB. Classificação semanticamente enriquecida por expressões do domínio [Internet]. 2022 ;[citado 2025 dez. 29 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16022023-172628/


Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2025