Unsupervised Learning Approaches for Non-Stationary Data Streams

Garcia, Kemilly Dearo; Carvalho, André Carlos Ponce de Leon Ferreira de

Tese

Unsupervised Learning Approaches for Non-Stationary Data Streams (2021)

Authors:
- Garcia, Kemilly Dearo
- Carvalho, André Carlos Ponce de Leon Ferreira de (Orientador)
Autor USP: GARCIA, KEMILLY DEARO - ICMC
Unidade: ICMC
Sigla do Departamento: SCC
Subjects: APRENDIZADO COMPUTACIONAL; ANÁLISE DE DADOS; REDES NEURAIS; APLICATIVOS MÓVEIS
Keywords: Aprendizado incremental; Data streams; Fluxo Continuo de Dados; Incremental learning; Unsupervised learning
Agências de fomento:
- Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Language: Inglês
Abstract: A sociedade moderna está cercada por diversos aplicativos que geram diariamente grandes volumes de dados. Atualmente, qualquer usuário pode monitorar suas atividades físicas, em tempo real, usando seus celulares ou dispositivos vestíveis. Além disso, empresas e governos podem aprender mais sobre seus clientes e cidadãos analisando dados disponíveis em mídias sociais, por exemplo. Esses dados são chamados de fluxo contínuo de dados quando são gerados em sequência e continuamente, geralmente em alta velocidade. Esses dados também são potencialmente ilimitados em tamanho e podem não ser estritamente estacionários. Extrair conhecimento de fluxos de dados é desafiador devido a várias restrições. O fluxo contínuo de dados requer que um algoritmo de aprendizagem atue em ambientes dinâmicos. O que significa que o algoritmo de aprendizagem deve permitir o processamento em tempo real. Além disso, deve ser capaz de se adaptar às mudanças ao longo do tempo, considerando a natureza não estacionária do fluxo de dados. Nas últimas décadas, muitas abordagens de aprendizado de máquina foram propostas para fluxo contínuo de dados. A maioria dessas abordagens é baseada na aprendizagem supervisionada. Essas abordagens dependem de dados rotulados para adaptar seus modelos às mudanças nos fluxos de dados. No entanto, o processo de rotular os dados costuma ser caro e pode exigir a utilização de especialistas no domínio em questão. Além disso, se os dados forem coletados em alta velocidade, podenão haver tempo suficiente para rotulá-los. Nesta tese, propomos algoritmos de aprendizado de máquina incremental e não supervisionado para fluxo contínuo de dados. Esses algoritmos são capazes de atualizar seus modelos de classificação com pouco ou sem feedback externo. Começamos abordando o problema de mudança de conceito em fluxo contínuo de dados, com poucos dados rotulados. Para esse problema, propomos uma abordagem semi-supervisionada chamada Sliding Window Clusters. Este método aprende os padrões atuais do fluxo contínuo de dados selecionando e resumindo os dados mais relevantes. A segunda abordagem é um algoritmo de aprendizagem não supervisionada chamada Higia que é capaz de classificar os dados em normal, novidade ou mudança de conceito. Na terceira abordagem presente nesta tese, propomos um algoritmo para combinar diferentes abordagens não supervisionadas em um modelo de classificação. Testamos essa abordagem considerando dois cenários. O primeiro é denominado Homogeneous Ensemble Clustering para Data Streams e é baseado na combinação de diferentes execuções do mesmo algoritmo de agrupamento. Neste estudo, também consideramos o cenário denominado Heterogeneous Ensemble Clustering para Data Streams, que se baseia na combinação de diferentes algoritmos de agrupamento de dados. Esses métodos permitem o uso de abordagens de agrupamento com um viés diferente para obter um modelo de classificação mais robusto. Além disso, avaliamos as abordagens do estado da arte,comumente citadas na literatura de detecção de novidades em fluxos de dados. A maior parte desta tese enfoca abordagens de agrupamento. Porém, dada a popularidade das redes neurais, também propomos o Ensemble of Auto-Encoders. Essa abordagem é baseada na combinação de auto-encoders em um conjunto de modelos. Cada auto-encoder é especializado em reconhecer uma classe particular. O Conjunto de auto-encoders possui uma estrutura modular que tem a vantagem de tornar o modelo facilmente adaptado às mudanças dos dados. Além disso, permite modelos personalizados, pois o modelo pode se adaptar às classes mais frequentes. Esta contribuição se aplica ao problema do Reconhecimento da Atividade Humana. Os resultados experimentais mostram o potencial das abordagens mencionadas.
Imprenta:
- Publisher place: São Carlos
- Date published: 2021
Data da defesa: 16.04.2021

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

GARCIA, Kemilly Dearo. Unsupervised Learning Approaches for Non-Stationary Data Streams. 2021. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2021. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-24062021-161645/. Acesso em: 27 fev. 2026.
APA

Garcia, K. D. (2021). Unsupervised Learning Approaches for Non-Stationary Data Streams (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-24062021-161645/
NLM

Garcia KD. Unsupervised Learning Approaches for Non-Stationary Data Streams [Internet]. 2021 ;[citado 2026 fev. 27 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-24062021-161645/
Vancouver

Garcia KD. Unsupervised Learning Approaches for Non-Stationary Data Streams [Internet]. 2021 ;[citado 2026 fev. 27 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-24062021-161645/

ReP

Exportar registro bibliográfico

Unsupervised Learning Approaches for Non-Stationary Data Streams (2021)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Unsupervised Learning Approaches for Non-Stationary Data Streams (2021)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: