Exportar registro bibliográfico

Um estudo sobre o papel de medidas de similaridade em visualização de coleções de documentos (2012)

  • Authors:
  • Autor USP: SALAZAR, FRIZZI ALEJANDRA SAN ROMAN - ICMC
  • Unidade: ICMC
  • Sigla do Departamento: SCC
  • Subjects: MINERAÇÃO DE DADOS; VISUALIZAÇÃO; ESPAÇOS VETORIAIS (MODELOS)
  • Keywords: Análise visual de textos; High-dimensional data visualization and multidimensional projections; Mineração visual de textos; Modelo espaço vetorial; Vector space model; Visual text analytics; Visual text mining; Visualização de dados com alta dimensionalidade e projeções multidimensionais
  • Language: Português
  • Abstract: Técnicas de visualização de informação, tais como as que utilizam posicionamento de pontos baseado na similaridade do conteúdo, são utilizadas para criar representações visuais de dados que evidenciem certos padrões. Essas técnicas são sensíveis à qualidade dos dados, a qual, por sua vez, depende de uma etapa de pré-processamento muito influente. Esta etapa envolve a limpeza do texto e, em alguns casos, a detecção de termos e seus pesos, bem como a definição de uma função de (dis)similaridade. Poucos são os estudos realizados sobre como esses cálculos de (dis)similaridade afetam a qualidade das representações visuais geradas para dados textuais. Este trabalho apresenta um estudo sobre o papel das diferentes medidas de (dis)similaridade entre pares de textos na geração de mapas visuais. Nos concentramos principalmente em dois tipos de funções de distância, aquelas computadas a partir da representação vetorial do texto (Vector Space Model (VSM)) e em medidas de comparação direta de strings textuais. Comparamos o efeito na geração de mapas visuais com técnicas de posicionamento de pontos, utilizando as duas abordagens. Para isso, foram utilizadas medidas objetivas para comparar a qualidade visual dos mapas, tais como Neighborhood Hit (NH) e Coeficiente de Silhueta (CS). Descobrimos que ambas as abordagens têm pontos a favor, mas de forma geral, o VSM apresentou melhores resultados quanto à discriminação de classes. Porém, a VSM convencional não é incremental, ou seja, novasadições à coleção forçam o recálculo do espaço de dados e das dissimilaridades anteriormente computadas. Nesse sentido, um novo modelo incremental baseado no VSM (Incremental Vector Space Model (iVSM)) foi considerado em nossos estudos comparativos. O iVSM apresentou os melhores resultados quantitativos e qualitativos em diversas configurações testadas. Os resultados da avaliação são apresentados e recomendações sobre a aplicação de diferentes medidas de similaridade de texto em tarefas de análise visual, são oferecidas
  • Imprenta:
  • Data da defesa: 27.09.2012
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      SALAZAR, Frizzi Alejandra San Roman. Um estudo sobre o papel de medidas de similaridade em visualização de coleções de documentos. 2012. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2012. Disponível em: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-24012013-155903/. Acesso em: 28 fev. 2026.
    • APA

      Salazar, F. A. S. R. (2012). Um estudo sobre o papel de medidas de similaridade em visualização de coleções de documentos (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-24012013-155903/
    • NLM

      Salazar FASR. Um estudo sobre o papel de medidas de similaridade em visualização de coleções de documentos [Internet]. 2012 ;[citado 2026 fev. 28 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-24012013-155903/
    • Vancouver

      Salazar FASR. Um estudo sobre o papel de medidas de similaridade em visualização de coleções de documentos [Internet]. 2012 ;[citado 2026 fev. 28 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-24012013-155903/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2026