Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations (2017)
- Authors:
- Autor USP: FRAIDEINBERZE, ANTONIO CANABRAVA - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- Subjects: FRACTAIS; BANCO DE DADOS; ALGORITMOS E ESTRUTURAS DE DADOS
- Keywords: Big data; Big data; Correlações não-lineares entre atributos; Feature selection; Fractal theory; Massive parallel processing; Non-linear attribute correlations; Processamento paralelo em massa; Seleção de atributos
- Language: Inglês
- Abstract: Dada uma grande base de dados de dimensionalidade moderada a alta, como identificar padrões úteis nos objetos de dados? Nesses casos, a redução de dimensionalidade é essencial para superar um fenômeno conhecido na literatura como a maldição da alta dimensionalidade. Embora existam algoritmos capazes de reduzir a dimensionalidade de conjuntos de dados na escala de Terabytes, infelizmente, todos falham em relação à identificação/eliminação de correlações não lineares entre os atributos. Este trabalho de Mestrado trata o problema explorando conceitos da Teoria de Fractais e processamento paralelo em massa para apresentar Curl-Remover, uma nova técnica de redução de dimensionalidade bem adequada ao pré-processamento de Big Data. Suas principais contribuições são: (a) Curl-Remover elimina correlações lineares e não lineares entre atributos, bem como atributos irrelevantes; (b) não depende de supervisão do usuário e é útil para tarefas analíticas em geral não apenas para a classificação; (c) apresenta escalabilidade linear tanto em relação ao número de objetos de dados quanto ao número de máquinas utilizadas; (d) não requer que o usuário sugira um número de atributos para serem removidos, e; (e) mantêm a semântica dos atributos por ser uma técnica de seleção de atributos, não de extração de atributos. Experimentos foram executados em conjuntos de dados sintéticos e reais contendo até 1,1 bilhões de pontos, e a nova técnica Curl-Remover apresentou desempenho superior comparada adois algoritmos do estado da arte baseados em PCA, obtendo em média até 8% a mais em acurácia de resultados.
- Imprenta:
- Publisher place: São Carlos
- Date published: 2017
- Data da defesa: 04.09.2017
-
ABNT
FRAIDEINBERZE, Antonio Canabrava. Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations. 2017. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2017. Disponível em: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-17112017-154451/. Acesso em: 15 out. 2024. -
APA
Fraideinberze, A. C. (2017). Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-17112017-154451/ -
NLM
Fraideinberze AC. Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations [Internet]. 2017 ;[citado 2024 out. 15 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-17112017-154451/ -
Vancouver
Fraideinberze AC. Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations [Internet]. 2017 ;[citado 2024 out. 15 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-17112017-154451/
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas