Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Investigating the Lambda Architecture
Organization Unit
Authors
  • Nicolas Bär
Supervisors
  • Thomas Scharrenbach
Institution University of Zurich
Faculty Faculty of Economics, Business Administration and Information Technology
Number of Pages 93
Date August 2014
Abstract Text Information systems become increasingly integrated and cause new challenges to pro- vide real-time analytics based on a high volume of data. The concept of the lambda architecture proposed by Marz provides a new solution to this problem, but the lack of a reference implementation limits its analysis. This thesis presents a possible implementation of the lambda architecture based on open source software components. The design of the batch layer is based on a scalable incremental mechanism that stores incoming data in a distributed and highly available storage engine, which provides replay functionality in case of failures. The speed layer does not provide recovery mechanisms and in case of machine failures the speed layer drops messages and continues with the most recent data available. The architecture guarantees eventual accuracy, which provides the possibly inaccurate results of the speed layer in real-time and replaces these values with the accurate results of the batch layer. The evaluation of the designed architecture measured its capabilities based on the SRBench Benchmark and DEBS Grand Challenge 2014 task and stressed its behavior with varying data frequency rates on an unreliable infrastructure.
Zusammenfassung Die fortschreitende Integration von Informationssystemen stellt Systeme zur Echtzeit- analyse grosser Datenmengen zunehmend vor Herausforderungen: Einerseits sollen die Ergebnisse möglichst präzise sein, andererseits sollen die Daten rasch verarbeitet werden und zur Verfügung stehen. Einen neuen Lösungsansatz zur Bewältigung der entstehenden Probleme stellt die von Marz skizzierte Lambda-Architektur dar, zu der bisher allerdings noch keine Referenzimplementierung publiziert wurde. Die vorliegende Arbeit stellt eine m mgliche Umsetzung dieser Architektur auf der Basis von Open-Source-Software Komponenten vor. Die Grundlage des Batch-Layers bildet dabei ein skalierbarer inkrementeller Mechanismus, der eingehende Nachrichten repliziert ablegt und Operationen wiederholen kann, falls Fehler auftreten. Der verteilte Speed- Layer hingegen verwirft unverarbeitete Nachrichten, falls unerwartete Fehler auftreten, damit neue Nachrichten schneller verarbeiteten werden können. Die Architektur verspricht "eventual accuracy": Die allenfalls fehlerhaften Echtzeit-Resultate des Speed- Layers können durch die präzisen Ergebnisse des Batch-Layers ersetzt werden. Die vorliegende Arbeit präsentiert auch die Ergebnisse der Evaluation des vorgeschlagenen Designs mit den Datensätzen des SRBench Benchmarks und der DEBS Grand Challenge 2014. Aufgezeigt wird das Verhalten der Architektur und deren Leistungsfähigkeit bei Instabilität der Infrastruktur und unter variierenden Datenfrequenzen.
PDF File Download
Export BibTeX