Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Online Anomaly Detection on Multivariate Data Streams
Organization Unit
Authors
  • Christoph Weber
Supervisors
  • Abraham Bernstein
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2019
Abstract Text The number of data sources continuously producing fast-changing data streams and needing tailor-made solutions to detect unexpected events increases rapidly. Outlier detection in univariate data streams already receives considerable attention, mainly in financial data, while multivariate anomaly detection, especially without ground truth, is less explored. We present state of the art in anomaly detection in general, its adoption for data streams and techniques for evaluation without ground truth. We implement a density-based clustering algorithm that summarizes multivariate data streams with micro clusters, and we evaluate it on synthetic and real-world data sets. We propose an extension of the algorithm to incorporate data drift to distinguish between pioneers and outliers correctly. The performed experiments show a performance improvement caused by the proposed drift-influence hyperparameters and revealed a correlation between an intrinsic data property and the anomaly detection performance, which allows hyperparameter tuning without ground truth.
Zusammenfassung Immer mehr Datenquellen erzeugen kontinuerlich und sich schnell ändernde Datenströme und benötigen massgeschneiderte Lösungen, um unerwartete Ereignisse zu erkennen. Die Erkennung von Ausreissern in univariaten Datenströmen findet bereits erhebliche Beachtung, vor allem im Finanzbereich, während die Erkennung multivariater Anomalien, insbesondere ohne Grundwahrheit, weniger erforscht ist. Wir präsentieren den Stand der Forschung in der Anomalieerkennung im Allgemeinen, ihre Anwendung für Datenströme und Techniken zur Auswertung ohne Grundwahrheit. Wir implementieren einen dichtebasierten Clustering-Algorithmus, der multivariate Datenströme mit Mikro-Clustern zusammenfasst, und bewerten ihn anhand von synthetischen und realen Datensätzen. Wir schlagen eine Erweiterung des Algorithmus vor, um Trends zu berücksichtigen und zwischen Pionieren und Ausreissern richtig zu unterscheiden. Die durchgeführten Experimente zeigten eine Leistungsverbesserung, die durch die vorgeschlagenen Trendeinflussparameter wursacht wurde, und zeigen eine Korrelation zwischen einer intrinsischen Dateneigenschaft und der Performanc der Anomalieerkennung, was die Abstimmung von Hyperparametern ohne Grundwahrheit ermöglicht.
PDF File Download
Export BibTeX