Similaridade em big data (2017)
- Authors:
- Autor USP: SANTOS, LúCIO FERNANDES DUTRA - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- Subjects: BIG DATA; ESPAÇOS MÉTRICOS; BASES DE DADOS; GERENCIAMENTO DE RESULTADOS
- Keywords: Analysis of results quality; Buscas por similaridade; Diversificação de resultados; Result diversification; Similarity queries; Similarity search in metric space
- Language: Português
- Abstract: Os volumes de dados armazenados em grandes bases de dados aumentam em ritmo sempre crescente, pressionando o desempenho e a flexibilidade dos Sistemas de Gerenciamento de Bases de Dados (SGBDs). Os problemas de se tratar dados em grandes quantidades, escopo, complexidade e distribuição vêm sendo tratados também sob o tema de big data. O aumento da complexidade cria a necessidade de novas formas de busca - representar apenas números e pequenas cadeias de caracteres já não é mais suficiente. Buscas por similaridade vêm se mostrando a maneira por excelência de comparar dados complexos, mas até recentemente elas não estavam disponíveis nos SGBDs. Agora, com o início de sua disponibilidade, está se tornando claro que apenas os operadores de busca por similaridade fundamentais não são suficientes para lidar com grandes volumes de dados. Um dos motivos disso é que similaridade\' é, usualmente, definida considerando seu significado quando apenas poucos estão envolvidos. Atualmente, o principal foco da literatura em big data é aumentar a eficiência na recuperação dos dados usando paralelismo, existindo poucos estudos sobre a eficácia das respostas obtidas. Esta tese visa propor e desenvolver variações dos operadores de busca por similaridade para torná-los mais adequados para processar big data, apresentando visões mais abrangentes da base de dados, aumentando a eficácia das respostas, porém sem causar impactos consideráveis na eficiência dos algoritmos de busca e viabilizando suaexecução escalável sobre grandes volumes de dados. Para alcançar esse objetivo, este trabalho apresenta quatro frentes de contribuições: A primeira consistiu em um modelo de diversificação de resultados que pode ser aplicado usando qualquer critério de comparação e operador de busca por similaridade. A segunda focou em definir técnicas de amostragem e de agrupamento de dados com o modelo de diversificação proposto, acelerando o processo de análise dos conjuntos de resultados. A terceira contribuição desenvolveu métodos de avaliação da qualidade dos conjuntos de resultados diversificados. Por fim, a última frente de contribuição apresentou uma abordagem para integrar os conceitos de mineração visual de dados e buscas por similaridade com diversidade em sistemas de recuperação por conteúdo, aumentando o entendimento de como a propriedade de diversidade pode ser aplicada.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2017
- Data da defesa: 19.07.2017
-
ABNT
SANTOS, Lúcio Fernandes Dutra. Similaridade em big data. 2017. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2017. Disponível em: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-07022018-104929/. Acesso em: 24 jan. 2026. -
APA
Santos, L. F. D. (2017). Similaridade em big data (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-07022018-104929/ -
NLM
Santos LFD. Similaridade em big data [Internet]. 2017 ;[citado 2026 jan. 24 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-07022018-104929/ -
Vancouver
Santos LFD. Similaridade em big data [Internet]. 2017 ;[citado 2026 jan. 24 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-07022018-104929/
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
