Extração de tópicos baseado em agrupamento de regras de associação (2015)
- Authors:
- Autor USP: SANTOS, FABIANO FERNANDES DOS - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- Subjects: INTELIGÊNCIA ARTIFICIAL; MINERAÇÃO DE DADOS; CIÊNCIA DA COMPUTAÇÃO (METODOLOGIA;TÉCNICAS)
- Keywords: Agrupamento de regras de associação; Association rule clustering; Dimensionality reduction; Extração de tópicos; Mineração de textos; Redução de dimensionalidade; Topic extraction
- Language: Português
- Abstract: Uma representação estruturada dos documentos em um formato apropriado para a obtenção automática de conhecimento, sem que haja perda de informações relevantes em relação ao formato originalmente não-estruturado, é um dos passos mais importantes da mineração de textos, pois a qualidade dos resultados obtidos com as abordagens automáticas para obtenção de conhecimento de textos estão fortemente relacionados à qualidade dos atributos utilizados para representar a coleção de documentos. O Modelo de Espaço de Vetores (MEV) é um modelo tradicional para obter uma representação estruturada dos documentos. Neste modelo, cada documento é representado por um vetor de pesos correspondentes aos atributos do texto. O modelo bag-of-words é a abordagem de MEV mais utilizada devido a sua simplicidade e aplicabilidade. Entretanto, o modelo bag-of-words não trata a dependência entre termos e possui alta dimensionalidade. Diversos modelos para representação dos documentos foram propostos na literatura visando capturar a informação de relação entre termos, destacando-se os modelos baseados em frases ou termos compostos, o Modelo de Espaço de Vetores Generalizado (MEVG) e suas extensões, modelos de tópicos não-probabilísticos, como o Latent Semantic Analysis (LSA) ou o Non-negative Matrix Factorization (NMF), e modelos de tópicos probabilísticos, como o Latent Dirichlet Allocation (LDA) e suas extensões. A representação baseada em modelos de tópicos é uma das abordagens mais interessantes uma vezque elas fornece uma estrutura que descreve a coleção de documentos em uma forma que revela sua estrutura interna e as suas inter-relações. As abordagens de extração de tópicos também fornecem uma estratégia de redução da dimensionalidade visando a construção de novas dimensões que representam os principais tópicos ou assuntos identificados na coleção de documentos. Entretanto, a extração é eficiente de informações sobre as relações entre os termos para construção da representação de documentos ainda é um grande desafio de pesquisa. Os modelos para representação de documentos que exploram a correlação entre termos normalmente enfrentam um grande desafio para manter um bom equilíbrio entre (i) a quantidade de dimensões obtidas, (ii) o esforço computacional e (iii) a interpretabilidade das novas dimensÃæes obtidas. Assim, é proposto neste trabalho o modelo para representação de documentos Latent Association Rule Cluster based Model (LARCM). Este é um modelo de extração de tópicos não-probabilístico que explora o agrupamento de regras de associação para construir uma representação da coleção de documentos com dimensionalidade reduzida tal que as novas dimensões são extraídas a partir das informações sobre as relações entre os termos. No modelo proposto, as regras de associação são extraídas para cada documento para obter termos correlacionados que formam expressões multi-palavras. Essas relações entre os termos formam o contexto local da relação entre termos. Em seguida,aplica-se um processo de agrupamento em todas as regras de associação para formar o contexto geral das relações entre os termos, e cada grupo de regras de associação obtido formará um tópico, ou seja, uma dimensão da representação. Também é proposto neste trabalho uma metodologia de avaliação que permite selecionar modelos que maximizam tanto os resultados na tarefa de classificação de textos quanto os resultados de interpretabilidade dos tópicos obtidos. O modelo LARCM foi comparado com o modelo LDA tradicional e o modelo LDA utilizando uma representação que inclui termos compostos (bag-of-related-words). Os resultados dos experimentos indicam que o modelo LARCM produz uma representação para os documentos que contribui significativamente para a melhora dos resultados na tarefa de classificação de textos, mantendo também uma boa interpretabilidade dos tópicos obtidos. O modelo LARCM também apresentou ótimo desempenho quando utilizado para extração de informação de contexto para aplicação em sistemas de recomendação sensíveis ao contexto
- Imprenta:
- Publisher place: São Carlos
- Date published: 2015
- Data da defesa: 29.05.2015
-
ABNT
SANTOS, Fabiano Fernandes dos. Extração de tópicos baseado em agrupamento de regras de associação. 2015. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2015. Disponível em: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-02122015-161054/. Acesso em: 28 dez. 2025. -
APA
Santos, F. F. dos. (2015). Extração de tópicos baseado em agrupamento de regras de associação (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-02122015-161054/ -
NLM
Santos FF dos. Extração de tópicos baseado em agrupamento de regras de associação [Internet]. 2015 ;[citado 2025 dez. 28 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-02122015-161054/ -
Vancouver
Santos FF dos. Extração de tópicos baseado em agrupamento de regras de associação [Internet]. 2015 ;[citado 2025 dez. 28 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-02122015-161054/ - Selecionando candidatos a descritores para agrupamentos hierárquicos de documentos utilizando regras de associação
- Compilação e análise da informação utilizada ou produzida pela Rede AgroHidro
- CRITIC 1.0: ambiente web para busca e análise da informação utilizada ou produzida pela Rede AgroHidro
- Metodologia para a comparação de diferentes métodos de descrição de agrupamentos hierárquicos de documentos independentes do algoritmo de agrupamento
- Desenvolvimento de um ambiente facilitador de integração de ferramentas de mineração de textos
- Um modelo para a seleção de n-gramas significativos e não redundantes em tarefas de mineração de textos
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
