Detecting outliers and annotating their types with indexing structures (2022)
- Authors:
- Autor USP: SILVA, GUILHERME DOMINGOS FARIA - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- DOI: 10.11606/D.55.2022.tde-15092022-141353
- Subjects: INTERNET; INTERNET DAS COISAS; BASES DE DADOS; ANÁLISE DE DADOS; MINERAÇÃO DE DADOS
- Keywords: Anomalies; Anotação de anomalias; Casos de exceção; Detecção de anomalias; Estruturas de indexação; Indexing structures; Outlier annotation; Outlier detection; Slim-tree
- Agências de fomento:
- Language: Inglês
- Abstract: O aumento na quantidade de dados disponíveis na internet se acentua com a popularização de tecnologias como 5G e Internet das Coisas. Em grandes bases de dados costuma haver forte presença de anomalias não detectadas ou apenas descartadas. A literatura de detecção de anomalias demonstra que a investigação dessas instâncias singulares pode fornecer novas perspectivas sobre os comportamentos de sistemas e pessoas. Essa inspeção permite que doenças sejam identificadas precocemente, tendências do mercado financeiro sejam melhor interpretadas e que ataques de segurança digital sejam impedidos. Contudo, as técnicas de detecção de anomalias carregam limitações, sendo: (1) dependentes da disponibilidade dos atributos das instâncias, o que pode gerar problemas de privacidade; (2) pouco escaláveis e; (3) capazes de prover apenas uma separação binária que permite detectar anomalias, mas não classificá-las para que sejam melhor entendidas. Partindo de um conjunto de dados não rotulados para o qual apenas distâncias entre as instâncias estão disponíveis, como detectar anomalias e categorizá-las por tipo de forma eficiente? Na vasta literatura de detecção de anomalias não há trabalhos, até onde sabemos, que lidam com o problema de anotação de anomalias. Anomalias podem ser classificadas em três grandes grupos: (a) anomalias globais, instâncias severamente diferentes das outras, como erros de inserção de informações em uma base de dados; (b) anomalias locais, instâncias parecidas comalgumas outras da base de dados como um todo, mas com variações mínimas que as tornam diferentes em um escopo menor, como um jogador de futebol que acerta poucas jogadas jogando em um time forte e; (c) anomalias coletivas, pequenos grupos de instâncias que são, em conjunto, bastante diferentes das restantes, como um ataque cibernético por negação de serviço, com poucas máquinas tendo um comportamento nocivo semelhante. Neste projeto é apresentado o C-ALLOUT: um novo método para detecção e anotação de anomalias. C-ALLOUT é capaz de se manter em nível de igualdade, ou até superioridade, quando comparado aos algoritmos do estado da arte, ainda contribuindo com a anotação das anomalias, uma tarefa que os competidores não são capazes de realizar. C-ALLOUT toma proveito da Slim-tree, uma estrutura de indexação que o torna escalável, atingindo complexidade de tempo e espaço O(nlogn). O método funciona tendo acesso aos atributos das instâncias ou limitado a distâncias. Por fim, C-ALLOUT não depende de nenhuma interação com o usuário, sendo livre de parâmetros por padrão, o ideal para tarefas não-supervisionadas como análise de anomalias.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2022
- Data da defesa: 15.07.2022
- Este periódico é de acesso aberto
- Este artigo NÃO é de acesso aberto
-
ABNT
SILVA, Guilherme Domingos Faria. Detecting outliers and annotating their types with indexing structures. 2022. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2022. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-15092022-141353/. Acesso em: 23 jan. 2026. -
APA
Silva, G. D. F. (2022). Detecting outliers and annotating their types with indexing structures (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-15092022-141353/ -
NLM
Silva GDF. Detecting outliers and annotating their types with indexing structures [Internet]. 2022 ;[citado 2026 jan. 23 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-15092022-141353/ -
Vancouver
Silva GDF. Detecting outliers and annotating their types with indexing structures [Internet]. 2022 ;[citado 2026 jan. 23 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-15092022-141353/
Informações sobre o DOI: 10.11606/D.55.2022.tde-15092022-141353 (Fonte: oaDOI API)
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
