Not logged in.
Quick Search - Contribution
Contribution Details
Type | Master's Thesis |
Scope | Discipline-based scholarship |
Title | Online Optimization of Job Parallelization in Apache GearPump |
Organization Unit | |
Authors |
|
Supervisors |
|
Language |
|
Institution | University of Zurich |
Faculty | Faculty of Business, Economics and Informatics |
Date | 2019 |
Abstract Text | Parameter tuning in the realm of distributed (streaming) systems is a popular research area and many solutions have been proposed by the research community. Bayesian Optimization (BO) is one of the them which is proved to be powerful. While the existing way to conduct the BO process is `offline' and involves shutting down the system as well as many inefficient manual steps, in this work we implement an optimizer which is able to do `online' BO optimization. The optimizer is implemented within Apache Gearpump, a message-driven streaming engine. As the DAG operation at runtime is the prerequisite for doing `online' optimization, we inspect into the existing feature of Apache Gearpump, and propose our improved approach named Restart to do runtime DAG operations. Then supported by Restart approach, we design and implement JobOptimizer, which enables `online' BO optimization. The evaluation results show that: with the constraint of maximum number of trials, although JobOptimizer is not able to explore the parameter space adequately, it is able to find better parameter set than random exploration. It also outperforms Linear Ascent Optimizer in terms of throughput in the case of comparatively larger DAG applications. |
Zusammenfassung | Die Parametereinstellung im Bereich verteilter (Streaming) Systeme ist ein beliebtes Forschungsgebiet. Viele Lösungen wurden von der Forschungsgemeinschaft vorgeschlagen. Das Bayesian Optimization (BO) ist eine solche Lösung, die sich als mächtig erwiesen hat. Während die bestehende Methode zur Durchführung des BO-Prozesses ist `offline', die Herunterfahren des Systems sowie viele ineffiziente manuelle Schritte braucht. In dieser Arbeit implementieren wir einen Optimierer, der BO-Optimierung `online' durchführen kann. Der Optimierer wird in Apache Gearpump, einer nachrichtengesteuerten Streaming-Engine, implementiert. Da der DAG-Vorgang zur Laufzeit die Voraussetzung für die Online-Optimierung ist, untersuchen wir die vorhandene Funktion von Apache Gearpump und schlagen einen verbesserten Ansatz namens Restart vor, um Laufzeit-DAG-Vorgänge durchzuführen. Unterstützt durch den Restart-Ansatz entwerfen und implementieren wir JobOptimizer, der eine Online-BO-Optimierung ermöglicht. Die Bewertungsergebnisse zeigen: mit der Beschränkung der maximalen Anzahl von Versuchen, obwohl JobOptimizer den Parameterraum nicht ausreichend erforschen kann, es kann einen besseren Parametersatz finden als zufällige Exploration. Bei vergleichsweise grösseren DAG-Anwendungen übertrifft es den Durchsatz von Linear Ascent Optimizer. |
PDF File | Download |
Export | BibTeX |