Not logged in.

Contribution Details

Type Bachelor's Thesis
Scope Discipline-based scholarship
Title Benchmarking Big Data Streams: Joins in Informationsstrom-Verarbeitungssystemen
Organization Unit
Authors
  • Livio Hobi
Supervisors
  • Abraham Bernstein
  • Thomas Scharrenbach
Language
  • German
Institution University of Zurich
Faculty Faculty of Economics, Business Administration and Information Technology
Number of Pages 62
Date 2013
Abstract Text This thesis investigates an approach for systematically stress-testing Information flow processing (IFP) systems with sequential joins. The main contribution of this work is not only the result of the evaluation of a five-way sequential join but also the provided methodic approach going through the properties and challenges of joins in the context of IFP systems, the described data preparation and the statistical evaluation based on some defined key performance indicators. This approach can simplify future work. Furthermore this work emphasizes the immense importance of knowing and selecting the dataset for a benchmark. The developer of a benchmark needs to know some statistics about the dataset and then choose the parameters that fit the defined requirements.
Zusammenfassung Diese Arbeit beschreibt ein methodisches Vorgehen, um sequentielle Joins in Informationsstrom-Verarbeitungssystemen (ISV-Systeme) systematisch zu testen. Als Hauptbeitrag dieser Arbeit ist nicht nur das Resultat des durchgeführten Experiments eines fünffachen sequentiellen Joins, sondern das methodische Vorgehen von den Eigenschaften und Herausforderungen der Joins in ISV-Systemen, bis hin zur Datenaufbereitung und der statistischen Analyse zu betrachten. Dieses Vorgehen und die dazugehörigen Python-Skripte können für zukünftige Forschungen wiederverwendet werden. Weiter betont diese Arbeit, wie wichtig die Auswahl des Datensatzes für eine Benchmark ist. Die Ergebnisse des Experiments zeigen, dass unterschiedliche Grössen der Zeitfenster einen beachtlichen Einfluss auf den Durchsatz, die Trefferquote, die Präzision und die Antwortzeit haben. Die schwankende Datenrate im verwendeten Datensatz konnte das System insofern stressen, als dass es durch eine höhere Datenrate mehr Resultate zu berechnen gab, was eine höhere Antwortzeit und einen tieferen Durchsatz ergibt.
PDF File Download
Export BibTeX