Um método para paralelização automática de workflows intensivos em dados (2017)
- Authors:
- Autor USP: WATANABE, ELAINE NAOMI - IME
- Unidade: IME
- Sigla do Departamento: MAC
- Assunto: CIENCIA DA COMPUTACAO
- Keywords: Data Parallelism; Data-intensive Workflows; NoSQL; NoSQL; Paralelismo de Dados; Workflows Intensivos em Dados
- Agências de fomento:
- Language: Português
- Abstract: A análise de dados em grande escala é um dos grandes desafios computacionais atuais e está presente não somente em áreas da ciência moderna mas também nos setores público e industrial. Nesses cenários, o processamento dos dados geralmente é modelado como um conjunto de atividades interligadas por meio de fluxos de dados os workflows. Devido ao alto custo computacional, diversas estratégias já foram propostas para melhorar a eficiência da execução de workflows intensivos em dados, tais como o agrupamento de atividades para minimizar as transferências de dados e a paralelização do processamento, de modo que duas ou mais atividades sejam executadas ao mesmo tempo em diferentes recursos computacionais. O paralelismo nesse caso é definido pela estrutura descrita em seu modelo de composição de atividades. Em geral, os Sistemas de Gerenciamento de Workflows, responsáveis pela coordenação e execução dessas atividades em um ambiente distribuído, desconhecem o tipo de processamento a ser realizado e por isso não são capazes de explorar automaticamente estratégias para execução paralela. As atividades paralelizáveis são definidas pelo usuário em tempo de projeto e criar uma estrutura que faça uso eficiente de um ambiente distribuído não é uma tarefa trivial. Este trabalho tem como objetivo prover execuções mais eficientes de workflows intensivos em dados e propõe para isso um método para a paralelização automática dessas aplicações, voltado para usuários não-especialistas emcomputação de alto desempenho. Este método define nove anotações semânticas para caracterizar a forma como os dados são acessados e consumidos pelas atividades e, assim, levando em conta os recursos computacionais disponíveis para a execução, criar automaticamente estratégias que explorem o paralelismo de dados. O método proposto gera réplicas das atividades anotadas e define também um esquema de indexação e distribuição dos dados do workflow que possibilita maior acesso paralelo. Avaliou-se sua eficiência em dois modelos de workflows com dados reais, executados na plataforma de nuvem da Amazon. Usou-se um SGBD relacional (PostgreSQL) e um NoSQL (MongoDB) para o gerenciamento de até 20,5 milhões de objetos de dados em 21 cenários com diferentes configurações de particionamento e replicação de dados. Os resultados obtidos mostraram que a paralelização da execução das atividades promovida pelo método reduziu o tempo de execução do workflow em até 66,6% sem aumentar o seu custo monetário
- Imprenta:
- Data da defesa: 22.05.2017
-
ABNT
WATANABE, Elaine Naomi. Um método para paralelização automática de workflows intensivos em dados. 2017. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2017. Disponível em: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-22072017-144419/. Acesso em: 01 jan. 2026. -
APA
Watanabe, E. N. (2017). Um método para paralelização automática de workflows intensivos em dados (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de http://www.teses.usp.br/teses/disponiveis/45/45134/tde-22072017-144419/ -
NLM
Watanabe EN. Um método para paralelização automática de workflows intensivos em dados [Internet]. 2017 ;[citado 2026 jan. 01 ] Available from: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-22072017-144419/ -
Vancouver
Watanabe EN. Um método para paralelização automática de workflows intensivos em dados [Internet]. 2017 ;[citado 2026 jan. 01 ] Available from: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-22072017-144419/
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
