Not logged in.

Quick Search - Contribution

Contribution Details

Type	Master's Thesis
Scope	Discipline-based scholarship
Title	Online Anomaly Detection on Multivariate Data Streams
Organization Unit	Dynamic and Distributed Information Systems (Abraham Bernstein)
Authors	Christoph Weber
Supervisors	Abraham Bernstein
Language	English
Institution	University of Zurich
Faculty	Faculty of Business, Economics and Informatics
Date	2019
Abstract Text	The number of data sources continuously producing fast-changing data streams and needing tailor-made solutions to detect unexpected events increases rapidly. Outlier detection in univariate data streams already receives considerable attention, mainly in financial data, while multivariate anomaly detection, especially without ground truth, is less explored. We present state of the art in anomaly detection in general, its adoption for data streams and techniques for evaluation without ground truth. We implement a density-based clustering algorithm that summarizes multivariate data streams with micro clusters, and we evaluate it on synthetic and real-world data sets. We propose an extension of the algorithm to incorporate data drift to distinguish between pioneers and outliers correctly. The performed experiments show a performance improvement caused by the proposed drift-influence hyperparameters and revealed a correlation between an intrinsic data property and the anomaly detection performance, which allows hyperparameter tuning without ground truth.
Zusammenfassung	Immer mehr Datenquellen erzeugen kontinuerlich und sich schnell ändernde Datenströme und benötigen massgeschneiderte Lösungen, um unerwartete Ereignisse zu erkennen. Die Erkennung von Ausreissern in univariaten Datenströmen findet bereits erhebliche Beachtung, vor allem im Finanzbereich, während die Erkennung multivariater Anomalien, insbesondere ohne Grundwahrheit, weniger erforscht ist. Wir präsentieren den Stand der Forschung in der Anomalieerkennung im Allgemeinen, ihre Anwendung für Datenströme und Techniken zur Auswertung ohne Grundwahrheit. Wir implementieren einen dichtebasierten Clustering-Algorithmus, der multivariate Datenströme mit Mikro-Clustern zusammenfasst, und bewerten ihn anhand von synthetischen und realen Datensätzen. Wir schlagen eine Erweiterung des Algorithmus vor, um Trends zu berücksichtigen und zwischen Pionieren und Ausreissern richtig zu unterscheiden. Die durchgeführten Experimente zeigten eine Leistungsverbesserung, die durch die vorgeschlagenen Trendeinflussparameter wursacht wurde, und zeigen eine Korrelation zwischen einer intrinsischen Dateneigenschaft und der Performanc der Anomalieerkennung, was die Abstimmung von Hyperparametern ohne Grundwahrheit ermöglicht.
PDF File	Download
Export	BibTeX