Data Warehouses na era do Big Data: processamento eficiente de Junções Estrela no Hadoop

Brito, Jaqueline Joice; Ciferri, Cristina Dutra de Aguiar

Tese

Data Warehouses na era do Big Data: processamento eficiente de Junções Estrela no Hadoop (2017)

Authors:
- Brito, Jaqueline Joice
- Ciferri, Cristina Dutra de Aguiar (Orientador)
Autor USP: BRITO, JAQUELINE JOICE - ICMC
Unidade: ICMC
Sigla do Departamento: SCC
Subjects: COMPUTAÇÃO EM NUVEM; BIG DATA; FRAMEWORKS
Keywords: Cloud Computing; Data Warehouse; Data Warehouse; Hadoop; Hadoop; Junção Estrela; Star Join
Language: Inglês
Abstract: A era do Big Data chegou: a combinação entre o volume dados coletados diarimente com o surgimento de soluções de código aberto para o processamento massivo de dados mudou para sempre a indústria. De sistemas de recomendação que assistem às pessoas a encontrarem seus pares românticos à criação de carros auto-dirigidos, a Computação em Nuvem permitiu que empresas de todos os tamanhos e áreas alcançassem o seu pleno potencial com custos reduzidos. Em particular, o uso dessas tecnologias em aplicações de Data Warehousing reduziu custos e proporcionou alta escalabilidade para aplicações orientadas a negócios, como em processamento on-line analítico (Online Analytical Processing- OLAP). Junções Estrelas são das primitivas mais essenciais em Data Warehouses, ou seja, consultas que realizam a junções de tabelas de fato com tabelas de dimensões. Conforme o volume de dados aumenta, Junções Estrela tornam-se custosas e podem limitar o desempenho das aplicações. Nesta tese são propostas soluções especializadas para otimizar o processamento de Junções Estrela. Para isso, utilizamos a família de software Hadoop em um cluster de 21 nós. Nós mostramos que o gargalo primário na computação de Junções Estrelas no Hadoop reside no excesso de operações escrita do disco (disk spill) e na sobrecarga da rede devido a comunicação excessiva entre os nós. Para reduzir estes efeitos negativos, são propostas duas soluções em Spark baseadas nas técnicas Bloom filters ou Broadcast, reduzindo o tempo totalde computação em pelo menos 38%. Além disso, mostramos que a realização de uma leitura completa das tables (full table scan) pode prejudicar significativamente o desempenho de consultas com baixa seletividade. Assim, nós propomos um Índice Bitmap de Junção distribuído que é implementado como um índice secundário que pode ser combinado com acesso aleatório no Hadoop Distributed File System (HDFS). Nós implementamos três versões (uma em MapReduce e duas em Spark) do nosso algoritmo de processamento baseado nesse índice distribuído, os quais reduziram o tempo de computação em até 77% para Junções Estrelas de baixa seletividade do Star Schema Benchmark (SSB). Como idealmente o sistema deve ser capaz de executar tanto acesso aleatório quanto full scan, nós também propusemos uma arquitetura genérica que permite a inserção de um otimizador de consultas capaz de selecionar quais abordagens devem ser usadas dependendo da consulta. Devido ao fato de consultas de junção serem frequentes, nossas soluções são pertinentes a uma ampla gama de aplicações. A contribuições desta tese não só fortalecem o uso de frameworks de processamento de código aberto, como também exploram métodos mais eficientes de acesso aos dados para promover uma melhora significativa no desempenho Junções Estrela.
Imprenta:
- Publisher place: São Carlos
- Date published: 2017
Data da defesa: 12.12.2017

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

BRITO, Jaqueline Joice. Data Warehouses na era do Big Data: processamento eficiente de Junções Estrela no Hadoop. 2017. Tese (Doutorado) – Universidade de São Paulo, São Carlos, 2017. Disponível em: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-23072018-111356/. Acesso em: 19 abr. 2024.
APA

Brito, J. J. (2017). Data Warehouses na era do Big Data: processamento eficiente de Junções Estrela no Hadoop (Tese (Doutorado). Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-23072018-111356/
NLM

Brito JJ. Data Warehouses na era do Big Data: processamento eficiente de Junções Estrela no Hadoop [Internet]. 2017 ;[citado 2024 abr. 19 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-23072018-111356/
Vancouver

Brito JJ. Data Warehouses na era do Big Data: processamento eficiente de Junções Estrela no Hadoop [Internet]. 2017 ;[citado 2024 abr. 19 ] Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-23072018-111356/

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

Processamento de consultas SOLAP drill-across e com junção espacial em data warehouses geográficos

ReP

Exportar registro bibliográfico

Data Warehouses na era do Big Data: processamento eficiente de Junções Estrela no Hadoop (2017)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Data Warehouses na era do Big Data: processamento eficiente de Junções Estrela no Hadoop (2017)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: