Um método para paralelização automática de workflows intensivos em dados

Watanabe, Elaine Naomi; Braghetto, Kelly Rosa

Tese

Um método para paralelização automática de workflows intensivos em dados (2017)

Authors:
- Watanabe, Elaine Naomi
- Braghetto, Kelly Rosa (Orientador)
Autor USP: WATANABE, ELAINE NAOMI - IME
Unidade: IME
Sigla do Departamento: MAC
Assunto: CIENCIA DA COMPUTACAO
Keywords: Data Parallelism; Data-intensive Workflows; NoSQL; NoSQL; Paralelismo de Dados; Workflows Intensivos em Dados
Agências de fomento:
- Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
Language: Português
Abstract: A análise de dados em grande escala é um dos grandes desafios computacionais atuais e está presente não somente em áreas da ciência moderna mas também nos setores público e industrial. Nesses cenários, o processamento dos dados geralmente é modelado como um conjunto de atividades interligadas por meio de fluxos de dados os workflows. Devido ao alto custo computacional, diversas estratégias já foram propostas para melhorar a eficiência da execução de workflows intensivos em dados, tais como o agrupamento de atividades para minimizar as transferências de dados e a paralelização do processamento, de modo que duas ou mais atividades sejam executadas ao mesmo tempo em diferentes recursos computacionais. O paralelismo nesse caso é definido pela estrutura descrita em seu modelo de composição de atividades. Em geral, os Sistemas de Gerenciamento de Workflows, responsáveis pela coordenação e execução dessas atividades em um ambiente distribuído, desconhecem o tipo de processamento a ser realizado e por isso não são capazes de explorar automaticamente estratégias para execução paralela. As atividades paralelizáveis são definidas pelo usuário em tempo de projeto e criar uma estrutura que faça uso eficiente de um ambiente distribuído não é uma tarefa trivial. Este trabalho tem como objetivo prover execuções mais eficientes de workflows intensivos em dados e propõe para isso um método para a paralelização automática dessas aplicações, voltado para usuários não-especialistas emcomputação de alto desempenho. Este método define nove anotações semânticas para caracterizar a forma como os dados são acessados e consumidos pelas atividades e, assim, levando em conta os recursos computacionais disponíveis para a execução, criar automaticamente estratégias que explorem o paralelismo de dados. O método proposto gera réplicas das atividades anotadas e define também um esquema de indexação e distribuição dos dados do workflow que possibilita maior acesso paralelo. Avaliou-se sua eficiência em dois modelos de workflows com dados reais, executados na plataforma de nuvem da Amazon. Usou-se um SGBD relacional (PostgreSQL) e um NoSQL (MongoDB) para o gerenciamento de até 20,5 milhões de objetos de dados em 21 cenários com diferentes configurações de particionamento e replicação de dados. Os resultados obtidos mostraram que a paralelização da execução das atividades promovida pelo método reduziu o tempo de execução do workflow em até 66,6% sem aumentar o seu custo monetário
Imprenta:
- Publisher place: São Paulo
- Date published: 2017
Data da defesa: 22.05.2017

How to cite

A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas

ABNT

WATANABE, Elaine Naomi. Um método para paralelização automática de workflows intensivos em dados. 2017. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2017. Disponível em: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-22072017-144419/. Acesso em: 17 fev. 2026.
APA

Watanabe, E. N. (2017). Um método para paralelização automática de workflows intensivos em dados (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de http://www.teses.usp.br/teses/disponiveis/45/45134/tde-22072017-144419/
NLM

Watanabe EN. Um método para paralelização automática de workflows intensivos em dados [Internet]. 2017 ;[citado 2026 fev. 17 ] Available from: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-22072017-144419/
Vancouver

Watanabe EN. Um método para paralelização automática de workflows intensivos em dados [Internet]. 2017 ;[citado 2026 fev. 17 ] Available from: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-22072017-144419/

ReP

Exportar registro bibliográfico

Um método para paralelização automática de workflows intensivos em dados (2017)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI:

USP Schools

ReP

Exportar registro bibliográfico

Um método para paralelização automática de workflows intensivos em dados (2017)

How to cite

Últimas obras dos mesmos autores vinculados com a USP cadastradas na BDPI: