Classificação semanticamente enriquecida por expressões do domínio (2022)
- Authors:
- Autor USP: SCHEICHER, RICARDO BRIGATO - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- DOI: 10.11606/T.55.2022.tde-16022023-172628
- Subjects: LINGUÍSTICA COMPUTACIONAL; REPRESENTAÇÃO DE CONHECIMENTO; AQUISIÇÃO DE CONHECIMENTO; PROCESSAMENTO DE TEXTO
- Keywords: Classificação semântica de textos; Extração de termos; Mineração de textos; Representação semântica de textos; Terms extraction; Text mining; Text semantic classification; Text semantic representation
- Agências de fomento:
- Language: Português
- Abstract: Com o aumento da quantidade e variedade de textos em formato digital, seja em redes sociais, web ou internamente nas organizações, as técnicas de Mineração de Textos tornam-se essenciais no apoio à extração e organização desse conhecimento. Em tarefas de classificação de documentos, a representação dos dados tem um alto impacto na qualidade da solução final e modelos tradicionais de representação textual, como a Bag-of-Words (BoW), limitam-se apenas ao léxico impossibilitando a distinção de documentos com vocabulário semelhante e ideias diferentes sobre um mesmo assunto. Problemas de diferentes níveis de complexidade semântica possuem determinadas características que influenciam diretamente no desempenho de tarefas de classificação. Nesse sentido, o uso de informações emanticamente mais ricas em conjunto com a representação tradicional BoW permite atingir resultados mais eficazes em tarefas de Mineração de Textos. Expressões do domínio são consideradas informações enriquecidas que carregam consigo um certo nível semântico. A representação generalized of Expressions of Domain (BoED) é construída a partir e listas de termos do domínio e identificadores de classe, que geram as expressões do domínio e pode ser aplicada em diversas áreas do conhecimento como forma de informação semanticamente enriquecida. Com o propósito geral de avançar as pesquisas na área de Mineração de Textos e melhorar resultados de classificação de nível semâmantico usando informações enriquecidas, nestatese de doutorado foram desenvolvidas e a avaliadas as seguintes abordagens: (i) proposta de três diferentes versões das representações enriquecidas semanticamente gBoED, (ii) método de classificação semanticamente enriquecida por expressões do domínio, (iii) método semiautomático de extração de termos e construção de representação semântica baseado em regras morfossintáticas, (iv) método semiautomático de extração de termos baseado em modelos de linguagem BERT, (v) estudo de caso de classificação semântica em pedidos de acesso à informação. Os métodos foram desenvolvidos e avaliados em dez coleções de documentos diferentes, em idioma português e inglês, juntamente com as diferentes versões de representações semanticamente enriquecidas. Os resultados indicam que os métodos propostos são promissores, possibilitando melhorar a acurácia de tarefas de classificação semântica em domínio restrito, quando comparada aos resultados com o método tradicional BoW.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2022
- Data da defesa: 07.12.2022
- Este periódico é de acesso aberto
- Este artigo é de acesso aberto
- URL de acesso aberto
- Cor do Acesso Aberto: gold
- Licença: cc-by-nc-sa
-
ABNT
SCHEICHER, Ricardo Brigato. Classificação semanticamente enriquecida por expressões do domínio. 2022. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2022. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16022023-172628/. Acesso em: 29 dez. 2025. -
APA
Scheicher, R. B. (2022). Classificação semanticamente enriquecida por expressões do domínio (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16022023-172628/ -
NLM
Scheicher RB. Classificação semanticamente enriquecida por expressões do domínio [Internet]. 2022 ;[citado 2025 dez. 29 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16022023-172628/ -
Vancouver
Scheicher RB. Classificação semanticamente enriquecida por expressões do domínio [Internet]. 2022 ;[citado 2025 dez. 29 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16022023-172628/
Informações sobre o DOI: 10.11606/T.55.2022.tde-16022023-172628 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
