Exportar registro bibliográfico

Extração de tópicos baseado em agrupamento de regras de associação (2015)

  • Authors:
  • Autor USP: SANTOS, FABIANO FERNANDES DOS - ICMC
  • Unidade: ICMC
  • Sigla do Departamento: SCC
  • Subjects: INTELIGÊNCIA ARTIFICIAL; MINERAÇÃO DE DADOS; CIÊNCIA DA COMPUTAÇÃO (METODOLOGIA;TÉCNICAS)
  • Keywords: Agrupamento de regras de associação; Association rule clustering; Dimensionality reduction; Extração de tópicos; Mineração de textos; Redução de dimensionalidade; Topic extraction
  • Language: Português
  • Abstract: Uma representação estruturada dos documentos em um formato apropriado para a obtenção automática de conhecimento, sem que haja perda de informações relevantes em relação ao formato originalmente não-estruturado, é um dos passos mais importantes da mineração de textos, pois a qualidade dos resultados obtidos com as abordagens automáticas para obtenção de conhecimento de textos estão fortemente relacionados à  qualidade dos atributos utilizados para representar a coleção de documentos. O Modelo de Espaço de Vetores (MEV) é um modelo tradicional para obter uma representação estruturada dos documentos. Neste modelo, cada documento é representado por um vetor de pesos correspondentes aos atributos do texto. O modelo bag-of-words é a abordagem de MEV mais utilizada devido a sua simplicidade e aplicabilidade. Entretanto, o modelo bag-of-words não trata a dependência entre termos e possui alta dimensionalidade. Diversos modelos para representação dos documentos foram propostos na literatura visando capturar a informação de relação entre termos, destacando-se os modelos baseados em frases ou termos compostos, o Modelo de Espaço de Vetores Generalizado (MEVG) e suas extensões, modelos de tópicos não-probabilísticos, como o Latent Semantic Analysis (LSA) ou o Non-negative Matrix Factorization (NMF), e modelos de tópicos probabilísticos, como o Latent Dirichlet Allocation (LDA) e suas extensões. A representação baseada em modelos de tópicos é uma das abordagens mais interessantes uma vezque elas fornece uma estrutura que descreve a coleção de documentos em uma forma que revela sua estrutura interna e as suas inter-relações. As abordagens de extração de tópicos também fornecem uma estratégia de redução da dimensionalidade visando a construção de novas dimensões que representam os principais tópicos ou assuntos identificados na coleção de documentos. Entretanto, a extração é eficiente de informações sobre as relações entre os termos para construção da representação de documentos ainda é um grande desafio de pesquisa. Os modelos para representação de documentos que exploram a correlação entre termos normalmente enfrentam um grande desafio para manter um bom equilíbrio entre (i) a quantidade de dimensões obtidas, (ii) o esforço computacional e (iii) a interpretabilidade das novas dimensÃæes obtidas. Assim, é proposto neste trabalho o modelo para representação de documentos Latent Association Rule Cluster based Model (LARCM). Este é um modelo de extração de tópicos não-probabilístico que explora o agrupamento de regras de associação para construir uma representação da coleção de documentos com dimensionalidade reduzida tal que as novas dimensões são extraídas a partir das informações sobre as relações entre os termos. No modelo proposto, as regras de associação são extraídas para cada documento para obter termos correlacionados que formam expressões multi-palavras. Essas relações entre os termos formam o contexto local da relação entre termos. Em seguida,aplica-se um processo de agrupamento em todas as regras de associação para formar o contexto geral das relações entre os termos, e cada grupo de regras de associação obtido formará um tópico, ou seja, uma dimensão da representação. Também é proposto neste trabalho uma metodologia de avaliação que permite selecionar modelos que maximizam tanto os resultados na tarefa de classificação de textos quanto os resultados de interpretabilidade dos tópicos obtidos. O modelo LARCM foi comparado com o modelo LDA tradicional e o modelo LDA utilizando uma representação que inclui termos compostos (bag-of-related-words). Os resultados dos experimentos indicam que o modelo LARCM produz uma representação para os documentos que contribui significativamente para a melhora dos resultados na tarefa de classificação de textos, mantendo também uma boa interpretabilidade dos tópicos obtidos. O modelo LARCM também apresentou ótimo desempenho quando utilizado para extração de informação de contexto para aplicação em sistemas de recomendação sensíveis ao contexto
  • Imprenta:
  • Data da defesa: 29.05.2015
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      SANTOS, Fabiano Fernandes dos; REZENDE, Solange Oliveira. Extração de tópicos baseado em agrupamento de regras de associação. 2015.Universidade de São Paulo, São Carlos, 2015. Disponível em: < http://www.teses.usp.br/teses/disponiveis/55/55134/tde-02122015-161054/ >.
    • APA

      Santos, F. F. dos, & Rezende, S. O. (2015). Extração de tópicos baseado em agrupamento de regras de associação. Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-02122015-161054/
    • NLM

      Santos FF dos, Rezende SO. Extração de tópicos baseado em agrupamento de regras de associação [Internet]. 2015 ;Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-02122015-161054/
    • Vancouver

      Santos FF dos, Rezende SO. Extração de tópicos baseado em agrupamento de regras de associação [Internet]. 2015 ;Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-02122015-161054/


Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2021