Exportar registro bibliográfico

Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations (2017)

  • Authors:
  • USP affiliated authors: FRAIDEINBERZE, ANTONIO CANABRAVA - ICMC
  • Unidades: ICMC
  • Sigla do Departamento: SCC
  • Subjects: FRACTAIS; BANCO DE DADOS; ALGORITMOS E ESTRUTURAS DE DADOS
  • Keywords: Big data; Big data; Correlações não-lineares entre atributos; Feature selection; Fractal theory; Massive parallel processing; Non-linear attribute correlations; Processamento paralelo em massa; Seleção de atributos
  • Language: Inglês
  • Abstract: Dada uma grande base de dados de dimensionalidade moderada a alta, como identificar padrões úteis nos objetos de dados? Nesses casos, a redução de dimensionalidade é essencial para superar um fenômeno conhecido na literatura como a maldição da alta dimensionalidade. Embora existam algoritmos capazes de reduzir a dimensionalidade de conjuntos de dados na escala de Terabytes, infelizmente, todos falham em relação à identificação/eliminação de correlações não lineares entre os atributos. Este trabalho de Mestrado trata o problema explorando conceitos da Teoria de Fractais e processamento paralelo em massa para apresentar Curl-Remover, uma nova técnica de redução de dimensionalidade bem adequada ao pré-processamento de Big Data. Suas principais contribuições são: (a) Curl-Remover elimina correlações lineares e não lineares entre atributos, bem como atributos irrelevantes; (b) não depende de supervisão do usuário e é útil para tarefas analíticas em geral não apenas para a classificação; (c) apresenta escalabilidade linear tanto em relação ao número de objetos de dados quanto ao número de máquinas utilizadas; (d) não requer que o usuário sugira um número de atributos para serem removidos, e; (e) mantêm a semântica dos atributos por ser uma técnica de seleção de atributos, não de extração de atributos. Experimentos foram executados em conjuntos de dados sintéticos e reais contendo até 1,1 bilhões de pontos, e a nova técnica Curl-Remover apresentou desempenho superior comparada adois algoritmos do estado da arte baseados em PCA, obtendo em média até 8% a mais em acurácia de resultados.
  • Imprenta:
  • Data da defesa: 04.09.2017

  • How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      FRAIDEINBERZE, Antonio Canabrava; CORDEIRO, Robson Leonardo Ferreira. Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations. 2017.Universidade de São Paulo, São Carlos, 2017. Disponível em: < http://www.teses.usp.br/teses/disponiveis/55/55134/tde-17112017-154451/ >.
    • APA

      Fraideinberze, A. C., & Cordeiro, R. L. F. (2017). Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations. Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-17112017-154451/
    • NLM

      Fraideinberze AC, Cordeiro RLF. Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations [Internet]. 2017 ;Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-17112017-154451/
    • Vancouver

      Fraideinberze AC, Cordeiro RLF. Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations [Internet]. 2017 ;Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-17112017-154451/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2020