Exportar registro bibliográfico

Data Warehouses na era do Big Data: processamento eficiente de Junções Estrela no Hadoop (2017)

  • Authors:
  • Autor USP: BRITO, JAQUELINE JOICE - ICMC
  • Unidade: ICMC
  • Sigla do Departamento: SCC
  • Subjects: COMPUTAÇÃO EM NUVEM; BIG DATA; FRAMEWORKS
  • Keywords: Cloud Computing; Data Warehouse; Data Warehouse; Hadoop; Hadoop; Junção Estrela; Star Join
  • Language: Inglês
  • Abstract: A era do Big Data chegou: a combinação entre o volume dados coletados diarimente com o surgimento de soluções de código aberto para o processamento massivo de dados mudou para sempre a indústria. De sistemas de recomendação que assistem às pessoas a encontrarem seus pares românticos à criação de carros auto-dirigidos, a Computação em Nuvem permitiu que empresas de todos os tamanhos e áreas alcançassem o seu pleno potencial com custos reduzidos. Em particular, o uso dessas tecnologias em aplicações de Data Warehousing reduziu custos e proporcionou alta escalabilidade para aplicações orientadas a negócios, como em processamento on-line analítico (Online Analytical Processing- OLAP). Junções Estrelas são das primitivas mais essenciais em Data Warehouses, ou seja, consultas que realizam a junções de tabelas de fato com tabelas de dimensões. Conforme o volume de dados aumenta, Junções Estrela tornam-se custosas e podem limitar o desempenho das aplicações. Nesta tese são propostas soluções especializadas para otimizar o processamento de Junções Estrela. Para isso, utilizamos a família de software Hadoop em um cluster de 21 nós. Nós mostramos que o gargalo primário na computação de Junções Estrelas no Hadoop reside no excesso de operações escrita do disco (disk spill) e na sobrecarga da rede devido a comunicação excessiva entre os nós. Para reduzir estes efeitos negativos, são propostas duas soluções em Spark baseadas nas técnicas Bloom filters ou Broadcast, reduzindo o tempo totalde computação em pelo menos 38%. Além disso, mostramos que a realização de uma leitura completa das tables (full table scan) pode prejudicar significativamente o desempenho de consultas com baixa seletividade. Assim, nós propomos um Índice Bitmap de Junção distribuído que é implementado como um índice secundário que pode ser combinado com acesso aleatório no Hadoop Distributed File System (HDFS). Nós implementamos três versões (uma em MapReduce e duas em Spark) do nosso algoritmo de processamento baseado nesse índice distribuído, os quais reduziram o tempo de computação em até 77% para Junções Estrelas de baixa seletividade do Star Schema Benchmark (SSB). Como idealmente o sistema deve ser capaz de executar tanto acesso aleatório quanto full scan, nós também propusemos uma arquitetura genérica que permite a inserção de um otimizador de consultas capaz de selecionar quais abordagens devem ser usadas dependendo da consulta. Devido ao fato de consultas de junção serem frequentes, nossas soluções são pertinentes a uma ampla gama de aplicações. A contribuições desta tese não só fortalecem o uso de frameworks de processamento de código aberto, como também exploram métodos mais eficientes de acesso aos dados para promover uma melhora significativa no desempenho Junções Estrela.
  • Imprenta:
  • Data da defesa: 12.12.2017
  • Acesso à fonte
    How to cite
    A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

    • ABNT

      BRITO, Jaqueline Joice; CIFERRI, Cristina Dutra de Aguiar. Data Warehouses na era do Big Data: processamento eficiente de Junções Estrela no Hadoop. 2017.Universidade de São Paulo, São Carlos, 2017. Disponível em: < http://www.teses.usp.br/teses/disponiveis/55/55134/tde-23072018-111356/ >.
    • APA

      Brito, J. J., & Ciferri, C. D. de A. (2017). Data Warehouses na era do Big Data: processamento eficiente de Junções Estrela no Hadoop. Universidade de São Paulo, São Carlos. Recuperado de http://www.teses.usp.br/teses/disponiveis/55/55134/tde-23072018-111356/
    • NLM

      Brito JJ, Ciferri CD de A. Data Warehouses na era do Big Data: processamento eficiente de Junções Estrela no Hadoop [Internet]. 2017 ;Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-23072018-111356/
    • Vancouver

      Brito JJ, Ciferri CD de A. Data Warehouses na era do Big Data: processamento eficiente de Junções Estrela no Hadoop [Internet]. 2017 ;Available from: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-23072018-111356/

    Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

Digital Library of Intellectual Production of Universidade de São Paulo     2012 - 2021