Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Continuous Semi-Supervised Binary Classi cation of Data Streams
Organization Unit
Authors
  • Patrick Muntwyler
Supervisors
  • Daniele Dell' Aglio
  • Abraham Bernstein
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2021
Abstract Text The number of data streams is growing every day, and so is their importance in our daily lives. It is important to be able to analyze data streams automatically, for example to find suspicious activities in a system or to filter interesting data points. Many systems today rely on supervised approaches. However, these have the disadvantage that they cannot adapt to new trends in the data streams. Semi-supervised stream approaches are needed for this. However, this area is not yet well explored. We therefore develop SSDenStream. SSDenStream is based on DenStream, an unsupervised density-based stream clustering algorithm, and is able to perform online classi cation. We give an overview of density-based stream clustering and semi-supervised extensions of it. We perform several experiments on synthetic and real-world data sets to prove the functionality of SSDenStream. The experiments show that SSDenStream is able to handle overlapping clusters and performs well on real-world data.
Zusammenfassung Die Anzahl der Datenströme wächst täglich und damit auch ihre Bedeutung in unserem täglichen Leben. Es ist wichtig, Datenströme automatisch analysieren zu können, zum Beispiel um verdächtige Aktivitäten in einem System zu erkennen oder interessante Datenpunkte zu filtern. Viele Systeme setzen heute auf überwachte Ansätze. Diese haben jedoch den Nachteil, dass sie sich nicht an neue Trends in den Datenströmen anpassen können. Hierfür werden teilüberwachte Ansätze benötigt. Dieser Bereich ist jedoch weniger gut erforscht. Wir entwickeln daher SSDenStream. SSDenStream basiert auf DenStream, einem unüberwachten dichte-basierten Stream-Clustering-Algorithmus, und ist in der Lage, Online-Klassifikation durchzuführen. Wir geben einen Überblick über dichte-basiertes Stream-Clustering und teilüberwachte Erweiterungen davon. Wir führen mehrere Experimente mit synthetischen und realen Datensätzen durch, um die Funktionalität von SSDenStream zu beweisen. Die Experimente zeigen, dass SSDen-Stream in der Lage ist, mit überlappenden Clustern umzugehen und bei realen Daten gute Ergebnisse erzielt.
PDF File Download
Export BibTeX