Unsupervised Dimensionality Reduction in Big Data via Massive Parallel Processing with MapReduce and Resilient Distributed Datasets (2020)
- Autores:
- Autor USP: OLIVEIRA, JADSON JOSE MONTEIRO - ICMC
- Unidade: ICMC
- Sigla do Departamento: SCC
- Assuntos: MINERAÇÃO DE DADOS; FRACTAIS; BIG DATA
- Palavras-chave do autor: Descriptive data mining; Fractal theory; Redução de Dimensionalidade Não-Supervisionada; Unsupervised dimensionality reduction
- Agências de fomento:
- Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)
- Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
- Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)
Processo FAPESP: 2018/05714-5and2016/17078-0 - Financiado pela Microsoft Azure Research, and Amazon Web Services Cloud Credits for Research
- Idioma: Inglês
- Resumo: O volume e a complexidade dos dados gerados em aplicações científicas e comerciais vêm crescendo exponencialmente em diversas áreas. Hoje, é comum a necessidade de encontrar padrões em Terabytes ou até mesmo em Petabytes de dados complexos, como em coleções de imagens, medições climáticas, impressões digitais e grandes grafos extraídos da Web ou de Redes Sociais. Por exemplo, como analisar Terabytes de dados oriundos de décadas de medições climáticas frequentes, compostos por dezenas de atributos climáticos como temperaturas, precipitação de chuva e umidade do ar, a fim de identificar padrões que antecedam eventos climáticos extremos para uso em sistemas de alerta? Um fato bem conhecido em análise de dados complexos é que a busca por padrões requer pré-processamento por redução de dimensionalidade, devido a um problema conhecido como maldição da alta dimensionalidade. Hoje, poucos trabalhos permitem reduzir, de forma eficaz, a dimensionalidade de tais dados em escala de Terabytes e Petabytes referenciados nesta monografia como Big Data visto que é extremamente desejável processamento paralelo em massa, escalabilidade linear em relação ao número de objetos, e capacidade para detectar os mais diversos tipos de correlações entre os atributos do conjunto de dados. Este trabalho de mestrado apresenta um estudo aprofundado, comparando duas abordagens distintas para redução de dimensionalidade em Big Data: ( a ) uma abordagem padrão, baseada na preservação da variância dos dados,e; ( b ) uma alternativa, baseada na Teoria de Fractais, que é raramente explorada na literatura. Para esta última nós propomos um algoritmo rápido e escalável baseado no modelo MapReduce e na estrutura de Resilient Distributed Datasets, utilizando uma nova estratégia de particionamento no conjunto de atributos que nos habilita a processar dados de alta dimensionalidade. Ambas as estratégias foram avaliadas a partir da inserção de atributos redundantes formados por correlações de diversos tipos, tais como linear, quadrática, logarítmica e exponencial, em 11 conjuntos de dados reais, e verificando a habilidade dessas abordagens em detectar tais redundâncias. Os resultados indicam que, pelo menos para grandes conjuntos de dados com dimensionalidade de até 1:000 atributos, nossa técnica baseada em fractais é a melhor opção, visto que ela removeu com alta precisão os atributos redundantes em quase todos os casos, ao contrário das abordagens baseadas em variância, mesmo quando utilizada a técnica KPCA que é feita para detectar correlações não lineares.
- Imprenta:
- Local: São Carlos
- Data de publicação: 2020
- Data da defesa: 30.10.2020
-
ABNT
OLIVEIRA, Jadson Jose Monteiro. Unsupervised Dimensionality Reduction in Big Data via Massive Parallel Processing with MapReduce and Resilient Distributed Datasets. 2020. Dissertação (Mestrado) – Universidade de São Paulo, São Carlos, 2020. Disponível em: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-20012021-125711/. Acesso em: 19 set. 2024. -
APA
Oliveira, J. J. M. (2020). Unsupervised Dimensionality Reduction in Big Data via Massive Parallel Processing with MapReduce and Resilient Distributed Datasets (Dissertação (Mestrado). Universidade de São Paulo, São Carlos. Recuperado de https://www.teses.usp.br/teses/disponiveis/55/55134/tde-20012021-125711/ -
NLM
Oliveira JJM. Unsupervised Dimensionality Reduction in Big Data via Massive Parallel Processing with MapReduce and Resilient Distributed Datasets [Internet]. 2020 ;[citado 2024 set. 19 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-20012021-125711/ -
Vancouver
Oliveira JJM. Unsupervised Dimensionality Reduction in Big Data via Massive Parallel Processing with MapReduce and Resilient Distributed Datasets [Internet]. 2020 ;[citado 2024 set. 19 ] Available from: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-20012021-125711/
Como citar
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas