Unsupervised Dimensionality Reduction in Big Data via Massive Parallel Processing with MapReduce and Resilient Distributed Datasets

Oliveira, Jadson Jose Monteiro; Cordeiro, Robson Leonardo Ferreira

Tese

Unsupervised Dimensionality Reduction in Big Data via Massive Parallel Processing with MapReduce and Resilient Distributed Datasets (2020)

Authors:
- Oliveira, Jadson Jose Monteiro
- Cordeiro, Robson Leonardo Ferreira (Orientador)
Autor USP: OLIVEIRA, JADSON JOSE MONTEIRO - ICMC
Unidade: ICMC
Sigla do Departamento: SCC
Subjects: MINERAÇÃO DE DADOS; FRACTAIS; BIG DATA
Keywords: Descriptive data mining; Fractal theory; Redução de Dimensionalidade Não-Supervisionada; Unsupervised dimensionality reduction
Agências de fomento:
Language: Inglês
Abstract: O volume e a complexidade dos dados gerados em aplicações científicas e comerciais vêm crescendo exponencialmente em diversas áreas. Hoje, é comum a necessidade de encontrar padrões em Terabytes ou até mesmo em Petabytes de dados complexos, como em coleções de imagens, medições climáticas, impressões digitais e grandes grafos extraídos da Web ou de Redes Sociais. Por exemplo, como analisar Terabytes de dados oriundos de décadas de medições climáticas frequentes, compostos por dezenas de atributos climáticos como temperaturas, precipitação de chuva e umidade do ar, a fim de identificar padrões que antecedam eventos climáticos extremos para uso em sistemas de alerta? Um fato bem conhecido em análise de dados complexos é que a busca por padrões requer pré-processamento por redução de dimensionalidade, devido a um problema conhecido como maldição da alta dimensionalidade. Hoje, poucos trabalhos permitem reduzir, de forma eficaz, a dimensionalidade de tais dados em escala de Terabytes e Petabytes referenciados nesta monografia como Big Data visto que é extremamente desejável processamento paralelo em massa, escalabilidade linear em relação ao número de objetos, e capacidade para detectar os mais diversos tipos de correlações entre os atributos do conjunto de dados. Este trabalho de mestrado apresenta um estudo aprofundado, comparando duas abordagens distintas para redução de dimensionalidade em Big Data: ( a ) uma abordagem padrão, baseada na preservação da variância dos dados,e; ( b ) uma alternativa, baseada na Teoria de Fractais, que é raramente explorada na literatura. Para esta última nós propomos um algoritmo rápido e escalável baseado no modelo MapReduce e na estrutura de Resilient Distributed Datasets, utilizando uma nova estratégia de particionamento no conjunto de atributos que nos habilita a processar dados de alta dimensionalidade. Ambas as estratégias foram avaliadas a partir da inserção de atributos redundantes formados por correlações de diversos tipos, tais como linear, quadrática, logarítmica e exponencial, em 11 conjuntos de dados reais, e verificando a habilidade dessas abordagens em detectar tais redundâncias. Os resultados indicam que, pelo menos para grandes conjuntos de dados com dimensionalidade de até 1:000 atributos, nossa técnica baseada em fractais é a melhor opção, visto que ela removeu com alta precisão os atributos redundantes em quase todos os casos, ao contrário das abordagens baseadas em variância, mesmo quando utilizada a técnica KPCA que é feita para detectar correlações não lineares.
Imprenta:
- Publisher place: São Carlos
- Date published: 2020
Data da defesa: 30.10.2020

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

OLIVEIRA, Jadson Jose Monteiro. Unsupervised Dimensionality Reduction in Big Data via Massive Parallel Processing with MapReduce and Resilient Distributed Datasets. 2020. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2020. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-20012021-125711/. Acesso em: 23 fev. 2026.
APA

Oliveira, J. J. M. (2020). Unsupervised Dimensionality Reduction in Big Data via Massive Parallel Processing with MapReduce and Resilient Distributed Datasets (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-20012021-125711/
NLM

Oliveira JJM. Unsupervised Dimensionality Reduction in Big Data via Massive Parallel Processing with MapReduce and Resilient Distributed Datasets [Internet]. 2020 ;[citado 2026 fev. 23 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-20012021-125711/
Vancouver

Oliveira JJM. Unsupervised Dimensionality Reduction in Big Data via Massive Parallel Processing with MapReduce and Resilient Distributed Datasets [Internet]. 2020 ;[citado 2026 fev. 23 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-20012021-125711/

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

Unsupervised dimensionality reduction for very large datasets: are we going to the right direction?

ReP

Exportar registro bibliográfico

Unsupervised Dimensionality Reduction in Big Data via Massive Parallel Processing with MapReduce and Resilient Distributed Datasets (2020)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Unsupervised Dimensionality Reduction in Big Data via Massive Parallel Processing with MapReduce and Resilient Distributed Datasets (2020)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: