Exportar registro bibliográfico

Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations (2017)

  • Authors:
  • Autor USP: FRAIDEINBERZE, ANTONIO CANABRAVA - ICMC
  • Unidade: ICMC
  • Sigla do Departamento: SCC
  • Subjects: FRACTAIS; BANCO DE DADOS; ALGORITMOS E ESTRUTURAS DE DADOS
  • Keywords: Big data; Big data; Correlações não-lineares entre atributos; Feature selection; Fractal theory; Massive parallel processing; Non-linear attribute correlations; Processamento paralelo em massa; Seleção de atributos
  • Language: Inglês
  • Abstract: Dada uma grande base de dados de dimensionalidade moderada a alta, como identificar padrões úteis nos objetos de dados? Nesses casos, a redução de dimensionalidade é essencial para superar um fenômeno conhecido na literatura como a maldição da alta dimensionalidade. Embora existam algoritmos capazes de reduzir a dimensionalidade de conjuntos de dados na escala de Terabytes, infelizmente, todos falham em relação à identificação/eliminação de correlações não lineares entre os atributos. Este trabalho de Mestrado trata o problema explorando conceitos da Teoria de Fractais e processamento paralelo em massa para apresentar Curl-Remover, uma nova técnica de redução de dimensionalidade bem adequada ao pré-processamento de Big Data. Suas principais contribuições são: (a) Curl-Remover elimina correlações lineares e não lineares entre atributos, bem como atributos irrelevantes; (b) não depende de supervisão do usuário e é útil para tarefas analíticas em geral não apenas para a classificação; (c) apresenta escalabilidade linear tanto em relação ao número de objetos de dados quanto ao número de máquinas utilizadas; (d) não requer que o usuário sugira um número de atributos para serem removidos, e; (e) mantêm a semântica dos atributos por ser uma técnica de seleção de atributos, não de extração de atributos. Experimentos foram executados em conjuntos de dados sintéticos e reais contendo até 1,1 bilhões de pontos, e a nova técnica Curl-Remover apresentou desempenho superior comparada adois algoritmos do estado da arte baseados em PCA, obtendo em média até 8% a mais em acurácia de resultados.
  • Imprenta:
  • Data da defesa: 04.09.2017
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      FRAIDEINBERZE, Antonio Canabrava. Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations. 2017. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2017. Disponível em: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-17112017-154451/. Acesso em: 19 abr. 2024.
    • APA

      Fraideinberze, A. C. (2017). Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-17112017-154451/
    • NLM

      Fraideinberze AC. Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations [Internet]. 2017 ;[citado 2024 abr. 19 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-17112017-154451/
    • Vancouver

      Fraideinberze AC. Effective and unsupervised fractal-based feature selection for very large datasets: removing linear and non-linear attribute correlations [Internet]. 2017 ;[citado 2024 abr. 19 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-17112017-154451/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

    Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2024