Explorando Espaços Métricos Correlacionados em Consultas por Similaridade sobre Bases de Dados Incompletos (2021)
- Authors:
- Autor USP: RODRIGUES, LUCAS SANTIAGO - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- Subjects: ESPAÇOS MÉTRICOS; ANÁLISE DE DADOS; BANCO DE DADOS; RECUPERAÇÃO DA INFORMAÇÃO
- Keywords: Complex data; Consultas por similaridade; Dados complexos; Dados faltantes; Metric spaces correlation; Missing data; Similarity searches
- Agências de fomento:
- Language: Português
- Abstract: O crescente avanço na geração de dados advindos de várias fontes, tornou necessário o desenvolvimento de métodos de apoio aos processos de gerenciamento de grandes quantidades de dados complexos, como imagens, vídeos e áudios. Entretanto, a ocorrência de falhas durante os processos de coleta e armazenamento dos dados devido a diversas causas resultam na incompletude dos bancos de dados, afetando negativamente a execução de consultas por similaridade em inúmeras tarefas de recuperação de informação. Especificamente em consultas por similaridade, as funções de distâncias tradicionais, como a Euclidiana, não medem a dissimilaridade entre pares de atributos com valores faltantes. Abordagens existentes na literatura lidam com o problema de bases de dados incompletos por meio do descarte de tuplas com valores faltantes, a imputação de valores por meio de várias heurísticas e a indexação de bases de dados incompletos. No entanto, a aplicação do descarte de dados pode ocasionar a redução significativa do conjunto de dados, imputações de valores podem introduzir distorções no conjunto de dados e a indexação de dados oferece tratamentos específicos ao tratamento de dados faltante e muitas vezes custoso. O objetivo deste trabalho consiste em extrair informações intrínsecas dos dados para auxiliar na execução de consultas por similaridade sobre bases incompletas, sem o descarte de dados e nem a utilização de um método de imputação de valores. Nesse contexto, este trabalho de mestradopropõe o método SOLID (Search Over Correlated and Incomplete Data), que utiliza a correlação entre pares de espaços métricos definidos por um conjunto de representações para gerar fatores de compatibilidade a partir da identificação de atributos complexos mais correlacionados com relação às ocorrências de objetos com valores faltantes. As consultas por similaridade são executadas por meio de uma função de distância, cuja construção inclui propriedades propostas neste trabalho. Ela aplica os fatores de compatibilidade de acordo com o cenário da falta de dados ocorrida e consolida as distâncias resultantes, reduzindo a influência dos dados faltantes. Uma análise experimental realizada com o SOLID mostra que, para diferentes bases de dados de dimensionalidades e cardinalidades distintas, a correlação entre espaços métricos altamente correlacionados pode auxiliar na redução da influência de dados faltantes ao executar consultas por similaridade. O SOLID é mais de 55% mais preciso do que métodos de imputação ao recuperar tuplas sobre bases que podem até mesmo conter grandes quantidades de dados faltantes (50%), além de executar consultas até 100x mais rápido do que seus concorrentes.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2021
- Data da defesa: 26.07.2021
-
ABNT
RODRIGUES, Lucas Santiago. Explorando Espaços Métricos Correlacionados em Consultas por Similaridade sobre Bases de Dados Incompletos. 2021. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2021. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-13092021-140800/. Acesso em: 24 abr. 2024. -
APA
Rodrigues, L. S. (2021). Explorando Espaços Métricos Correlacionados em Consultas por Similaridade sobre Bases de Dados Incompletos (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-13092021-140800/ -
NLM
Rodrigues LS. Explorando Espaços Métricos Correlacionados em Consultas por Similaridade sobre Bases de Dados Incompletos [Internet]. 2021 ;[citado 2024 abr. 24 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-13092021-140800/ -
Vancouver
Rodrigues LS. Explorando Espaços Métricos Correlacionados em Consultas por Similaridade sobre Bases de Dados Incompletos [Internet]. 2021 ;[citado 2024 abr. 24 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-13092021-140800/ - Taking advantage of highly-correlated attributes in similarity queries with missing values
- Sketch+ for visual and correlation-based exploratory data analysis: a case study with COVID-19 databases
- Similarity search and correlation-based exploratory analysis in EHRs: a case study with COVID-19 databases
- MiDaS: extract golden results from knowledge discovery even over incomplete databases
- A deep learning-based radiomics approach for COVID-19 detection from CXR images using ensemble learning model
- VD-Tree: how to build an efficient and fit metric access method using Voronoi diagrams
- The UTrack framework for segmenting and measuring dermatological ulcers through telemedicine
- Semi-automatic ulcer segmentation and wound area measurement supporting telemedicine
- G-FranC: a dataset of criminal activities mapped as a complex network in a relational DBMS
- A DBMS-based framework for content-based retrieval and analysis of skin ulcer Images in medical practice
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas