Exportar registro bibliográfico

Similaridade em big data (2017)

  • Authors:
  • Autor USP: SANTOS, LúCIO FERNANDES DUTRA - ICMC
  • Unidade: ICMC
  • Sigla do Departamento: SCC
  • Subjects: BIG DATA; ESPAÇOS MÉTRICOS; BASES DE DADOS; GERENCIAMENTO DE RESULTADOS
  • Keywords: Analysis of results quality; Buscas por similaridade; Diversificação de resultados; Result diversification; Similarity queries; Similarity search in metric space
  • Language: Português
  • Abstract: Os volumes de dados armazenados em grandes bases de dados aumentam em ritmo sempre crescente, pressionando o desempenho e a flexibilidade dos Sistemas de Gerenciamento de Bases de Dados (SGBDs). Os problemas de se tratar dados em grandes quantidades, escopo, complexidade e distribuição vêm sendo tratados também sob o tema de big data. O aumento da complexidade cria a necessidade de novas formas de busca - representar apenas números e pequenas cadeias de caracteres já não é mais suficiente. Buscas por similaridade vêm se mostrando a maneira por excelência de comparar dados complexos, mas até recentemente elas não estavam disponíveis nos SGBDs. Agora, com o início de sua disponibilidade, está se tornando claro que apenas os operadores de busca por similaridade fundamentais não são suficientes para lidar com grandes volumes de dados. Um dos motivos disso é que similaridade\' é, usualmente, definida considerando seu significado quando apenas poucos estão envolvidos. Atualmente, o principal foco da literatura em big data é aumentar a eficiência na recuperação dos dados usando paralelismo, existindo poucos estudos sobre a eficácia das respostas obtidas. Esta tese visa propor e desenvolver variações dos operadores de busca por similaridade para torná-los mais adequados para processar big data, apresentando visões mais abrangentes da base de dados, aumentando a eficácia das respostas, porém sem causar impactos consideráveis na eficiência dos algoritmos de busca e viabilizando suaexecução escalável sobre grandes volumes de dados. Para alcançar esse objetivo, este trabalho apresenta quatro frentes de contribuições: A primeira consistiu em um modelo de diversificação de resultados que pode ser aplicado usando qualquer critério de comparação e operador de busca por similaridade. A segunda focou em definir técnicas de amostragem e de agrupamento de dados com o modelo de diversificação proposto, acelerando o processo de análise dos conjuntos de resultados. A terceira contribuição desenvolveu métodos de avaliação da qualidade dos conjuntos de resultados diversificados. Por fim, a última frente de contribuição apresentou uma abordagem para integrar os conceitos de mineração visual de dados e buscas por similaridade com diversidade em sistemas de recuperação por conteúdo, aumentando o entendimento de como a propriedade de diversidade pode ser aplicada.
  • Imprenta:
  • Data da defesa: 19.07.2017
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      SANTOS, Lúcio Fernandes Dutra; TRAINA JUNIOR, Caetano. Similaridade em big data. 2017.Universidade de São Paulo, São Carlos, 2017. Disponível em: < http://www.teses.usp.br/teses/disponiveis/55/55134/tde-07022018-104929/ >.
    • APA

      Santos, L. F. D., & Traina Junior, C. (2017). Similaridade em big data. Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-07022018-104929/
    • NLM

      Santos LFD, Traina Junior C. Similaridade em big data [Internet]. 2017 ;Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-07022018-104929/
    • Vancouver

      Santos LFD, Traina Junior C. Similaridade em big data [Internet]. 2017 ;Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-07022018-104929/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2021