Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title enseMbLer: Designing a Scalable Architecture for Ensemble Machine Learning & Collaboration
Organization Unit
Authors
  • Shubhankar Joshi
Supervisors
  • Harald Gall
  • Pasquale Salza
  • Marco Edoardo Palma
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2022
Abstract Text The past few decades have seen a huge rise in the amount of data being generated online and a significant boom in the adoption of big data analytics and machine learning techniques with the aim of solving complex problems and driving innovation further. However, this is easier said than done as big data presents significant challenges. This thesis aims to explore this intersection of fields of big data and machine learning, examining the challenges and reviewing current state-of-the-art techniques. We further design and develop our own cloud ready scalable architecture, ensembler, building on the principles of data parallelism and massively parallel ensemble learning to tackle the big data problem. We demonstrate the capability of our solution by preforming an empirical analysis. To this end, we augment a popular public dataset using WGAN-GP, a generative adversarial network. We then develop and train standard models, and run a bunch of different experiments over Google Cloud Platform, comparing our results to those of others. We successfully demonstrate the effectiveness of REST based HTTP infrastructure to handle distributed machine learning without significant overheads and further provide evidence of the increased performance gains of ensemble based techniques. Finally, we contribute a solution to tackle real-time stream processing and machine learning by suggesting a lambda architecture using our solution.
Zusammenfassung In den letzten Jahrzehnten hat die Menge der online generierten Daten enorm zugenommen und die Einführung von Big-Data-Analysen und maschinellen Lerntechniken mit dem Ziel, komplexe Probleme zu lösen und die Innovation voranzutreiben, hat einen erheblichen Aufschwung erlebt. Dies ist jedoch leichter gesagt als getan, da Big Data erhebliche Herausforderungen mit sich bringt. Ziel dieser Arbeit ist es, diesen Schnittpunkt von Big Data und maschinellem Lernen zu erforschen, die Herausforderungen zu untersuchen und den aktuellen Stand der Technik zu überprüfen. Darüber hinaus entwerfen und entwickeln wir unsere eigene Cloud-fähige, skalierbare Architektur, ensembler, die auf den Prinzipien der Datenparallelität und des massiv-parallelen Ensemble-Lernens aufbaut, um das Big-Data-Problem zu lösen. Wir demonstrieren die Leistungsfähigkeit unserer Lösung, indem wir eine empirische Analyse durchführen. Zu diesem Zweck erweitern wir einen beliebten öffentlichen Datensatz mit WGAN-GP, einem generativen kontradiktorischen Netzwerk. Anschließend entwickeln und trainieren wir Standardmodelle und führen eine Reihe verschiedener Experimente über die Google Cloud Platform durch, wobei wir unsere Ergebnisse mit denen anderer vergleichen. Wir demonstrieren erfolgreich die Effektivität einer REST-basierten HTTP-Infrastruktur, um verteiltes maschinelles Lernen ohne signifikanten Overhead zu handhaben, und liefern weitere Beweise für die Leistungssteigerung von Ensemble-basierten Techniken. Abschließend stellen wir eine Lösung für die Echtzeit-Stream-Verarbeitung und das maschinelle Lernen vor, indem wir eine Lambda-Architektur vorschlagen, die unsere Lösung nutzt.
PDF File Download
Export BibTeX