Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques (2024)
- Authors:
- Autor USP: VINCES, BRAULIO VALENTIN SÁNCHEZ - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- DOI: 10.11606/T.55.2024.tde-11022025-113850
- Subjects: VALORES ATÍPICOS; TEMPO-REAL; ANÁLISE DE DADOS; RECUPERAÇÃO DA INFORMAÇÃO
- Keywords: Análise de fluxo de dados em tempo real; Clustering-based outlier detection; Detecção de microcluster em dados métricos; Detecção de outlier baseada em a grupamento; Detecção de outlier baseada em distância; Distance-based outlier detection; Escalabilidade; Microcluster detection in metric data; Real-time stream analysis; Scalability
- Agências de fomento:
- Language: Inglês
- Abstract: Este trabalho de Doutoramento aborda o desafio crítico da detecção de anomalias em conjuntos de dados grandes e complexos. Nosso foco é desenvolver métodos eficientes e escaláveis para identificar com precisão as anomalias em vários tipos e cenários de dados. A primeira parte da tese explora o uso de operações de junção de similaridade para a detecção de outliers baseada em distância. Propomos dois métodos novos: MCCATCH, que identifica com eficiência microclusters em conjuntos de dados dimensionais e não dimensionais, e GOOST, que detecta com eficiência outliers em fluxos de dados massivos. Ambos os métodos tomam proveito da junção de similaridade para obter um desempenho superior em termos de precisão, eficiência e escalabilidade. A segunda parte da tese investiga rigorosamente a eficácia das abordagens de detecção de outliers baseadas em agrupamento. Por meio de uma avaliação comparativa meticulosa e abrangente, demonstramos que os métodos baseados em agrupamento podem ser competitivos com os algoritmos de última geração não baseados em agrupamento, oferecendo vantagens em termos de robustez e escalabilidade. Nossa pesquisa contribui significativamente para o campo da detecção de outliers, fornecendo novas metodologias e percepções sobre a eficácia de diferentes abordagens. Os métodos que propomos têm profundas implicações práticas para uma ampla gama de aplicações, incluindo detecção de fraudes, detecção de intrusão em redes de computadores e diagnóstico médico, o quetorna nosso trabalho altamente relevante e aplicável.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2024
- Data da defesa: 21.11.2024
- Este periódico é de acesso aberto
- Este artigo NÃO é de acesso aberto
-
ABNT
VINCES, Braulio Valentin Sánchez. Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques. 2024. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2024. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-11022025-113850/. Acesso em: 18 fev. 2026. -
APA
Vinces, B. V. S. (2024). Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-11022025-113850/ -
NLM
Vinces BVS. Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques [Internet]. 2024 ;[citado 2026 fev. 18 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-11022025-113850/ -
Vancouver
Vinces BVS. Advancements in Microcluster and Outlier Detection: From Scalability Improvement by Capitalizing on Similarity Join Operations to a Comprehensive Evaluation of Clustering-Based Techniques [Internet]. 2024 ;[citado 2026 fev. 18 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-11022025-113850/ - McCatch: scalable microcluster detection in dimensional and nondimensional datasets
- A comparative evaluation of clustering-based outlier detection
- Efficient outlier detection in numerical and categorical data
- Experimental evaluation of accuracy of most common machine learning models using pulsar data set
Informações sobre o DOI: 10.11606/T.55.2024.tde-11022025-113850 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
