Not logged in.

Contribution Details

Type Bachelor's Thesis
Scope Discipline-based scholarship
Title Load-balancing implementation in Hadoop
Organization Unit
Authors
  • Thomas Walter Brenner
Supervisors
  • Michael Hanspeter Böhlen
  • Amr Noureldin
Language
  • English
Institution University of Zurich
Faculty Faculty of Economics, Business Administration and Information Technology
Number of Pages 45
Date 2013
Abstract Text The MapReduce-algorithm is a model that operates on distributed, parallel systems. Hadoop is an implementation of this MapReduce-algorithm. Some applications may produce an imbalance of work on the cluster during the execution. The goal of this thesis is to implement an load-balancing algorithm in the Hadoop framework to sort a list of timestamps. Implemented was an algorithm called TopCluster, which was developed at the universities of Munich and Bozen-Bolzano. This algorithm gathers locally the necessary information, combines them and produces a distribution of the data in order to avoid skew. In this thesis the TopCluster-algorithm is implemented, modified to meet the necessary requirements and eventually tested with different randomly distributed data.
Zusammenfassung Der MapReduce-Algorithmus ist ein Modell, um auf verteilten, parallelen System grosse Datenmengen zu verarbeiten. Hadoop ist eine Implementierung dieses MapReduce- Algorithmus. Manche Anwendungen können eine ungleiche Arbeitsverteilung bei der Ausführung hervorrufen. Das Ziel dieser Arbeit ist es, einen Load-Balancing-Algorithmus in das Framework Hadoop zu implementieren, um Zeitstempel zu sortieren. Es wurde ein Algorithmus namens TopCluster implementiert, der an den Universitäten München und Bozen Bolzano entwickelt wurde. Dieser Algorithmus sammelt die notwendigen Informationen lokal, kombiniert diese und produziert eine Verteilung der Daten um eine ungleiche Arbeitslast auf den einzelnen Instanzen des Systems zu verhindern. In dieser Arbeit wurde der TopCluster-Algorithmus implementiert, modifiziert, um den spezifischen Anforderungen gerecht zu werden, und mit zufällig verteilten Datensätzen getestet.
PDF File Download
Export BibTeX