Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Online Optimization of Job Parallelization in Apache GearPump
Organization Unit
Authors
  • Te Tan
Supervisors
  • Pengcheng Duan
  • Daniele Dell' Aglio
  • Abraham Bernstein
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2019
Abstract Text Parameter tuning in the realm of distributed (streaming) systems is a popular research area and many solutions have been proposed by the research community. Bayesian Optimization (BO) is one of the them which is proved to be powerful. While the existing way to conduct the BO process is `offline' and involves shutting down the system as well as many inefficient manual steps, in this work we implement an optimizer which is able to do `online' BO optimization. The optimizer is implemented within Apache Gearpump, a message-driven streaming engine. As the DAG operation at runtime is the prerequisite for doing `online' optimization, we inspect into the existing feature of Apache Gearpump, and propose our improved approach named Restart to do runtime DAG operations. Then supported by Restart approach, we design and implement JobOptimizer, which enables `online' BO optimization. The evaluation results show that: with the constraint of maximum number of trials, although JobOptimizer is not able to explore the parameter space adequately, it is able to find better parameter set than random exploration. It also outperforms Linear Ascent Optimizer in terms of throughput in the case of comparatively larger DAG applications.
Zusammenfassung Die Parametereinstellung im Bereich verteilter (Streaming) Systeme ist ein beliebtes Forschungsgebiet. Viele Lösungen wurden von der Forschungsgemeinschaft vorgeschlagen. Das Bayesian Optimization (BO) ist eine solche Lösung, die sich als mächtig erwiesen hat. Während die bestehende Methode zur Durchführung des BO-Prozesses ist `offline', die Herunterfahren des Systems sowie viele ineffiziente manuelle Schritte braucht. In dieser Arbeit implementieren wir einen Optimierer, der BO-Optimierung `online' durchführen kann. Der Optimierer wird in Apache Gearpump, einer nachrichtengesteuerten Streaming-Engine, implementiert. Da der DAG-Vorgang zur Laufzeit die Voraussetzung für die Online-Optimierung ist, untersuchen wir die vorhandene Funktion von Apache Gearpump und schlagen einen verbesserten Ansatz namens Restart vor, um Laufzeit-DAG-Vorgänge durchzuführen. Unterstützt durch den Restart-Ansatz entwerfen und implementieren wir JobOptimizer, der eine Online-BO-Optimierung ermöglicht. Die Bewertungsergebnisse zeigen: mit der Beschränkung der maximalen Anzahl von Versuchen, obwohl JobOptimizer den Parameterraum nicht ausreichend erforschen kann, es kann einen besseren Parametersatz finden als zufällige Exploration. Bei vergleichsweise grösseren DAG-Anwendungen übertrifft es den Durchsatz von Linear Ascent Optimizer.
PDF File Download
Export BibTeX