Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations

Fraideinberze, Antonio Canabrava; Cordeiro, Robson Leonardo Ferreira

Tese

Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations (2017)

Authors:
- Fraideinberze, Antonio Canabrava
- Cordeiro, Robson Leonardo Ferreira (Orientador)
Autor USP: FRAIDEINBERZE, ANTONIO CANABRAVA - ICMC
Unidade: ICMC
Sigla do Departamento: SCC
Subjects: FRACTAIS; BANCO DE DADOS; ALGORITMOS E ESTRUTURAS DE DADOS
Keywords: Big data; Big data; Correlações não-lineares entre atributos; Feature selection; Fractal theory; Massive parallel processing; Non-linear attribute correlations; Processamento paralelo em massa; Seleção de atributos
Language: Inglês
Abstract: Dada uma grande base de dados de dimensionalidade moderada a alta, como identificar padrões úteis nos objetos de dados? Nesses casos, a redução de dimensionalidade é essencial para superar um fenômeno conhecido na literatura como a maldição da alta dimensionalidade. Embora existam algoritmos capazes de reduzir a dimensionalidade de conjuntos de dados na escala de Terabytes, infelizmente, todos falham em relação à identificação/eliminação de correlações não lineares entre os atributos. Este trabalho de Mestrado trata o problema explorando conceitos da Teoria de Fractais e processamento paralelo em massa para apresentar Curl-Remover, uma nova técnica de redução de dimensionalidade bem adequada ao pré-processamento de Big Data. Suas principais contribuições são: (a) Curl-Remover elimina correlações lineares e não lineares entre atributos, bem como atributos irrelevantes; (b) não depende de supervisão do usuário e é útil para tarefas analíticas em geral não apenas para a classificação; (c) apresenta escalabilidade linear tanto em relação ao número de objetos de dados quanto ao número de máquinas utilizadas; (d) não requer que o usuário sugira um número de atributos para serem removidos, e; (e) mantêm a semântica dos atributos por ser uma técnica de seleção de atributos, não de extração de atributos. Experimentos foram executados em conjuntos de dados sintéticos e reais contendo até 1,1 bilhões de pontos, e a nova técnica Curl-Remover apresentou desempenho superior comparada adois algoritmos do estado da arte baseados em PCA, obtendo em média até 8% a mais em acurácia de resultados.
Imprenta:
- Publisher place: São Carlos
- Date published: 2017
Data da defesa: 04.09.2017

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

FRAIDEINBERZE, Antonio Canabrava. Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations. 2017. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2017. Disponível em: https://teses.usp.br/teses/disponiveis/55/55134/tde-17112017-154451/. Acesso em: 23 mar. 2026.
APA

Fraideinberze, A. C. (2017). Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://teses.usp.br/teses/disponiveis/55/55134/tde-17112017-154451/
NLM

Fraideinberze AC. Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations [Internet]. 2017 ;[citado 2026 mar. 23 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-17112017-154451/
Vancouver

Fraideinberze AC. Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations [Internet]. 2017 ;[citado 2026 mar. 23 ] Available from: https://teses.usp.br/teses/disponiveis/55/55134/tde-17112017-154451/

ReP

Exportar registro bibliográfico

Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations (2017)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations (2017)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: