Extração de tópicos baseado em agrupamento de regras de associação

Santos, Fabiano Fernandes dos; Rezende, Solange Oliveira

Tese

Extração de tópicos baseado em agrupamento de regras de associação (2015)

Authors:
- Santos, Fabiano Fernandes dos
- Rezende, Solange Oliveira (Orientador)
Autor USP: SANTOS, FABIANO FERNANDES DOS - ICMC
Unidade: ICMC
Sigla do Departamento: SCC
Subjects: INTELIGÊNCIA ARTIFICIAL; MINERAÇÃO DE DADOS; CIÊNCIA DA COMPUTAÇÃO (METODOLOGIA;TÉCNICAS)
Keywords: Agrupamento de regras de associação; Association rule clustering; Dimensionality reduction; Extração de tópicos; Mineração de textos; Redução de dimensionalidade; Topic extraction
Language: Português
Abstract: Uma representação estruturada dos documentos em um formato apropriado para a obtenção automática de conhecimento, sem que haja perda de informações relevantes em relação ao formato originalmente não-estruturado, é um dos passos mais importantes da mineração de textos, pois a qualidade dos resultados obtidos com as abordagens automáticas para obtenção de conhecimento de textos estão fortemente relacionados à qualidade dos atributos utilizados para representar a coleção de documentos. O Modelo de Espaço de Vetores (MEV) é um modelo tradicional para obter uma representação estruturada dos documentos. Neste modelo, cada documento é representado por um vetor de pesos correspondentes aos atributos do texto. O modelo bag-of-words é a abordagem de MEV mais utilizada devido a sua simplicidade e aplicabilidade. Entretanto, o modelo bag-of-words não trata a dependência entre termos e possui alta dimensionalidade. Diversos modelos para representação dos documentos foram propostos na literatura visando capturar a informação de relação entre termos, destacando-se os modelos baseados em frases ou termos compostos, o Modelo de Espaço de Vetores Generalizado (MEVG) e suas extensões, modelos de tópicos não-probabilísticos, como o Latent Semantic Analysis (LSA) ou o Non-negative Matrix Factorization (NMF), e modelos de tópicos probabilísticos, como o Latent Dirichlet Allocation (LDA) e suas extensões. A representação baseada em modelos de tópicos é uma das abordagens mais interessantes uma vezque elas fornece uma estrutura que descreve a coleção de documentos em uma forma que revela sua estrutura interna e as suas inter-relações. As abordagens de extração de tópicos também fornecem uma estratégia de redução da dimensionalidade visando a construção de novas dimensões que representam os principais tópicos ou assuntos identificados na coleção de documentos. Entretanto, a extração é eficiente de informações sobre as relações entre os termos para construção da representação de documentos ainda é um grande desafio de pesquisa. Os modelos para representação de documentos que exploram a correlação entre termos normalmente enfrentam um grande desafio para manter um bom equilíbrio entre (i) a quantidade de dimensões obtidas, (ii) o esforço computacional e (iii) a interpretabilidade das novas dimensÃæes obtidas. Assim, é proposto neste trabalho o modelo para representação de documentos Latent Association Rule Cluster based Model (LARCM). Este é um modelo de extração de tópicos não-probabilístico que explora o agrupamento de regras de associação para construir uma representação da coleção de documentos com dimensionalidade reduzida tal que as novas dimensões são extraídas a partir das informações sobre as relações entre os termos. No modelo proposto, as regras de associação são extraídas para cada documento para obter termos correlacionados que formam expressões multi-palavras. Essas relações entre os termos formam o contexto local da relação entre termos. Em seguida,aplica-se um processo de agrupamento em todas as regras de associação para formar o contexto geral das relações entre os termos, e cada grupo de regras de associação obtido formará um tópico, ou seja, uma dimensão da representação. Também é proposto neste trabalho uma metodologia de avaliação que permite selecionar modelos que maximizam tanto os resultados na tarefa de classificação de textos quanto os resultados de interpretabilidade dos tópicos obtidos. O modelo LARCM foi comparado com o modelo LDA tradicional e o modelo LDA utilizando uma representação que inclui termos compostos (bag-of-related-words). Os resultados dos experimentos indicam que o modelo LARCM produz uma representação para os documentos que contribui significativamente para a melhora dos resultados na tarefa de classificação de textos, mantendo também uma boa interpretabilidade dos tópicos obtidos. O modelo LARCM tambÃ©m apresentou ótimo desempenho quando utilizado para extração de informação de contexto para aplicação em sistemas de recomendação sensíveis ao contexto
Imprenta:
- Publisher place: São Carlos
- Date published: 2015
Data da defesa: 29.05.2015

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

SANTOS, Fabiano Fernandes dos. Extração de tópicos baseado em agrupamento de regras de associação. 2015. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2015. Disponível em: https://teses.usp.br/teses/disponiveis/55/55134/tde-02122015-161054/. Acesso em: 31 mar. 2026.
APA

Santos, F. F. dos. (2015). Extração de tópicos baseado em agrupamento de regras de associação (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://teses.usp.br/teses/disponiveis/55/55134/tde-02122015-161054/
NLM

Santos FF dos. Extração de tópicos baseado em agrupamento de regras de associação [Internet]. 2015 ;[citado 2026 mar. 31 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-02122015-161054/
Vancouver

Santos FF dos. Extração de tópicos baseado em agrupamento de regras de associação [Internet]. 2015 ;[citado 2026 mar. 31 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-02122015-161054/

ReP

Exportar registro bibliográfico

Extração de tópicos baseado em agrupamento de regras de associação (2015)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Extração de tópicos baseado em agrupamento de regras de associação (2015)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: