Exportar registro bibliográfico

Interactive keyterm-based document clustering and visualization via neural language models (2020)

  • Authors:
  • Autor USP: CABRAL, ERIC MACEDO - ICMC
  • Unidade: ICMC
  • Subjects: DESCOBERTA DE CONHECIMENTO; VISUALIZAÇÃO; ANÁLISE DE DADOS; CORPUS
  • Keywords: Agrupamento interativo de documentos; Interactive document clustering; Modelos neurais de linguagem; Neural language models; Visual analytics; Visualização analítica
  • Agências de fomento:
  • Language: Inglês
  • Abstract: Técnicas interativas de agrupamento de dados colocam o usuário no ciclo do algoritmo de agrupamento, permitindo não somente uma melhor qualidade de agrupamento, mas também apoiando a tarefa de descoberta de conhecimento em grandes volumes textuais. A abordagem guiada por termos-chave é sem dúvida intuitiva permitindo ao usuário a interação com palavras representativas ao invés de interagir com um grande volume de documentos ou com modelos de tópicos complexos. Mais do que tornar o algoritmo de agrupamento ajustável com pouco esforço do usuário, a abordagem de agrupamento visualmente interativo permite que o usuário foque na exploração do corpus como uma tarefa incremental. Após cada interação, o usuário pode obter novas informações sobre o corpus e expressar essas informações como feedback para o algoritmo de agrupamento. O sistema Vis-Kt apresenta-se como um sistema de visualização analítica para agrupamento de documentos basaedo em termos-chave, com técnicas que superam as técnicas considerada como estado da arte, como a Latent Dirichlet Allocation e a Non-negative Matrix Factorization. Com uma abordagem guiada pelo usuário, o sistema Vis-Kt permite ao usuário modelar seu discernimento sobre o corpus por meio de conjuntos de termos-chave que descrevem grupos de documentos. No entanto, o sistema Vis-Kt e seus algoritmos dependem do modelo Bag-of- Words, que possui várias limitações em relação à escalabilidade da extração de informação, à incrementalidade do processo e àrepresentação semântica dos dados. Com o objetivo de superar as limitações inerentes ao Bag-of-Words, propomos uma atualização da representação por termos-chave para uma abordagem de aprendizado de máquina baseado em modelos neurais de linguagem. Tais modelos podem extrair informações semânticas e relações das palavras que compõem o corpus. A principal contribuição deste projeto é um novo algoritmo interativo de agrupamento de documentos guiado por termos-chave e baseado em modelos neurais de linguagem. Essa abordagem mostra uma melhoria significativa em comparação com os algoritmos considerados estado da arte. O algoritmo de agrupamento proposto permite que o sistema Vis-Kt funcione de forma incremental, sem a necessidade de repetir todo processo de aprendizado e agrupamento desde o início. Isso torna o sistema adequado para o uso em análises de fluxos de texto. Para contribuir com a tarefa de descoberta de conhecimento e apoiar seu aspecto incremental, foi desenvolvida uma visualização baseada no diagrama de Sankey que representa as mudanças nos agrupamentos após cada interação com o corpus. Um conjunto de experimentos quantitativos em conjuntos de dados de texto disponíveis publicamente foi realizado para avaliar os resultados dos agrupamentos obtidos. Os resultados reportados neste trabalho mostram que, na maioria dos casos experimentados, o algoritmo proposto apresenta uma melhoria significativa nas medidas de qualidade de agrupamentos em comparação com os algoritmos.previamente adotados no sistema. Em todos os casos, o algoritmo proposto apresentou um ganho em tempo de processamento, principalmente nos maiores conjuntos de dados. Também relatamos dois cenários de uso para avaliar qualitativamente o componente visual proposto
  • Imprenta:
  • Data da defesa: 09.06.2020
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      CABRAL, Eric Macedo. Interactive keyterm-based document clustering and visualization via neural language models. 2020. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2020. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-20082020-093906/. Acesso em: 02 jan. 2026.
    • APA

      Cabral, E. M. (2020). Interactive keyterm-based document clustering and visualization via neural language models (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-20082020-093906/
    • NLM

      Cabral EM. Interactive keyterm-based document clustering and visualization via neural language models [Internet]. 2020 ;[citado 2026 jan. 02 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-20082020-093906/
    • Vancouver

      Cabral EM. Interactive keyterm-based document clustering and visualization via neural language models [Internet]. 2020 ;[citado 2026 jan. 02 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-20082020-093906/


Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2026