Exportar registro bibliográfico

Unsupervised Dimensionality Reduction in Big Data via Massive Parallel Processing with MapReduce and Resilient Distributed Datasets (2020)

  • Autores:
  • Autor USP: OLIVEIRA, JADSON JOSE MONTEIRO - ICMC
  • Unidade: ICMC
  • Sigla do Departamento: SCC
  • Assuntos: MINERAÇÃO DE DADOS; FRACTAIS; BIG DATA
  • Palavras-chave do autor: Descriptive data mining; Fractal theory; Redução de Dimensionalidade Não-Supervisionada; Unsupervised dimensionality reduction
  • Agências de fomento:
  • Idioma: Inglês
  • Resumo: O volume e a complexidade dos dados gerados em aplicações científicas e comerciais vêm crescendo exponencialmente em diversas áreas. Hoje, é comum a necessidade de encontrar padrões em Terabytes ou até mesmo em Petabytes de dados complexos, como em coleções de imagens, medições climáticas, impressões digitais e grandes grafos extraídos da Web ou de Redes Sociais. Por exemplo, como analisar Terabytes de dados oriundos de décadas de medições climáticas frequentes, compostos por dezenas de atributos climáticos como temperaturas, precipitação de chuva e umidade do ar, a fim de identificar padrões que antecedam eventos climáticos extremos para uso em sistemas de alerta? Um fato bem conhecido em análise de dados complexos é que a busca por padrões requer pré-processamento por redução de dimensionalidade, devido a um problema conhecido como maldição da alta dimensionalidade. Hoje, poucos trabalhos permitem reduzir, de forma eficaz, a dimensionalidade de tais dados em escala de Terabytes e Petabytes referenciados nesta monografia como Big Data visto que é extremamente desejável processamento paralelo em massa, escalabilidade linear em relação ao número de objetos, e capacidade para detectar os mais diversos tipos de correlações entre os atributos do conjunto de dados. Este trabalho de mestrado apresenta um estudo aprofundado, comparando duas abordagens distintas para redução de dimensionalidade em Big Data: ( a ) uma abordagem padrão, baseada na preservação da variância dos dados,e; ( b ) uma alternativa, baseada na Teoria de Fractais, que é raramente explorada na literatura. Para esta última nós propomos um algoritmo rápido e escalável baseado no modelo MapReduce e na estrutura de Resilient Distributed Datasets, utilizando uma nova estratégia de particionamento no conjunto de atributos que nos habilita a processar dados de alta dimensionalidade. Ambas as estratégias foram avaliadas a partir da inserção de atributos redundantes formados por correlações de diversos tipos, tais como linear, quadrática, logarítmica e exponencial, em 11 conjuntos de dados reais, e verificando a habilidade dessas abordagens em detectar tais redundâncias. Os resultados indicam que, pelo menos para grandes conjuntos de dados com dimensionalidade de até 1:000 atributos, nossa técnica baseada em fractais é a melhor opção, visto que ela removeu com alta precisão os atributos redundantes em quase todos os casos, ao contrário das abordagens baseadas em variância, mesmo quando utilizada a técnica KPCA que é feita para detectar correlações não lineares.
  • Imprenta:
  • Data da defesa: 30.10.2020
  • Acesso à fonte
    Como citar
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      OLIVEIRA, Jadson Jose Monteiro. Unsupervised Dimensionality Reduction in Big Data via Massive Parallel Processing with MapReduce and Resilient Distributed Datasets. 2020. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2020. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-20012021-125711/. Acesso em: 19 set. 2024.
    • APA

      Oliveira, J. J. M. (2020). Unsupervised Dimensionality Reduction in Big Data via Massive Parallel Processing with MapReduce and Resilient Distributed Datasets (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-20012021-125711/
    • NLM

      Oliveira JJM. Unsupervised Dimensionality Reduction in Big Data via Massive Parallel Processing with MapReduce and Resilient Distributed Datasets [Internet]. 2020 ;[citado 2024 set. 19 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-20012021-125711/
    • Vancouver

      Oliveira JJM. Unsupervised Dimensionality Reduction in Big Data via Massive Parallel Processing with MapReduce and Resilient Distributed Datasets [Internet]. 2020 ;[citado 2024 set. 19 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-20012021-125711/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

Biblioteca Digital de Produção Intelectual da Universidade de São Paulo     2012 - 2024