Exportar registro bibliográfico

Uma medida de similaridade híbrida para correspondência aproximada de múltiplos padrões (2019)

  • Authors:
  • Autor USP: DEZEMBRO, DENISE GAZOTTO - FFCLRP
  • Unidade: FFCLRP
  • Sigla do Departamento: 595
  • Subjects: COMPUTAÇÃO APLICADA; MÚLTIPLOS; CIÊNCIA
  • Keywords: Busca aproximada de múltiplos padrões; Correspondência entre padrões; Medidas de similaridade entre padrões; Multiple approximate string matching; Pattern matching; String metrics
  • Language: Português
  • Abstract: A busca aproximada por múltiplos padrões similares é um problema encontrado em diversas áreas de pesquisa, tais como biologia computacional, processamento de sinais e recuperação de informação. Na maioria das vezes, padrões não possuem uma correspondência exata e, portanto, buscam-se padrões aproximados, de acordo com um modelo de erro. Em geral, o modelo de erro utiliza uma função de distancia para determinar o quanto dois padrões são diferentes. As funções de distancia são baseadas em medidas de similaridade, que são classificadas em medidas de similaridade baseadas em distancia de edição, medidas de similaridade baseadas em token e medidas de similaridade híbridas. Algumas dessas medidas extraem um vetar de características de todos os termos que constituem o padrão. A similaridade entre os vetares pode ser calculada pela distancia entre cossenos ou pela distância euclidiana, por exemplo. Essas medidas apresentam alguns problemas: tornam-se inviáveis conforme o tamanho do padrão aumenta, não realizam a correção ortográfica ou apresentam problemas de normalização. Neste projeto de pesquisa propõe-se uma nova medida de similaridade híbrida que combina TF-IDF Weighting e uma medida de similaridade baseada em distancia de edição para estimar a importância de um termo dentro de um padrão na tarefa de busca textual. A medida DGD não descarta completamente os termos que pão fazem parte do padrão, mas atribui um peso baseando-se na alta similaridade deste termo com outro que está no padrão e com a média de TF-IDF Weighting do termo na coleção. Alguns experimentos foram conduzidos mostrando o comportamento da medida proposta comparada com as outras existentes na literatura. Tem-se como recomendação geral o limiar de {tf-idf+cosseno, Jaccard, Soft tf-idf} ≥ 0,60 e {Jaro, Jaro- Winkler, Monge-Elkan} ≥ 0,90 para detecção de padrões similares. Amedida de similaridade proposta neste trabalho (DGD+cosseno) apresentou um melhor desempenho quando comparada com tf-idf+cosseno e Soft tf-idf na identificação de padrões similares e um melhor desempenho do que as medidas baseadas em distância de edição (Jaro e Jaro-Winkler) na identificação de padrões não similares. Atuando como classificador, em geral, a medida de similaridade híbrida proposta neste trabalho (DGD+cosseno) apresentou um melhor desempenho (embora não sinificativamente) do que todas as outras medidas de similaridade analisadas, o que se mostra como um resultado promissor. Além disso, é possível concluir que o melhor valor de Ɵ a ser usado, onde Ɵ corresponde ao limiar do valor da medida de similaridade secundário baseada em distância de edição entre os termos do padrão, corresponde a 0,875
  • Imprenta:
  • Data da defesa: 07.03.2019
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      DEZEMBRO, Denise Gazotto. Uma medida de similaridade híbrida para correspondência aproximada de múltiplos padrões. 2019. Dissertação (Mestrado) – Universidade de São Paulo, Ribeirão Preto, 2019. Disponível em: http://www.teses.usp.br/teses/disponiveis/59/59143/tde-12042019-103622/. Acesso em: 04 out. 2024.
    • APA

      Dezembro, D. G. (2019). Uma medida de similaridade híbrida para correspondência aproximada de múltiplos padrões (Dissertação (Mestrado). Universidade de São Paulo, Ribeirão Preto. Recuperado de http://www.teses.usp.br/teses/disponiveis/59/59143/tde-12042019-103622/
    • NLM

      Dezembro DG. Uma medida de similaridade híbrida para correspondência aproximada de múltiplos padrões [Internet]. 2019 ;[citado 2024 out. 04 ] Available from: http://www.teses.usp.br/teses/disponiveis/59/59143/tde-12042019-103622/
    • Vancouver

      Dezembro DG. Uma medida de similaridade híbrida para correspondência aproximada de múltiplos padrões [Internet]. 2019 ;[citado 2024 out. 04 ] Available from: http://www.teses.usp.br/teses/disponiveis/59/59143/tde-12042019-103622/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2024