Not logged in.

Contribution Details

Type Dissertation
Scope Discipline-based scholarship
Title Efficient Processing and Reasoning of Semantic Streams
Organization Unit
Authors
  • Shen Gao
Supervisors
  • Abraham Bernstein
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Number of Pages 93
Date January 2018
Abstract Text The digitalization of our society creates a large number of data streams, such as stock tickers, tweets, and sensor data. Making use of these streams has tremendous values. In the Semantic Web context, live information is queried from the streams in real-time. Knowledge is discovered by integrating streams with data from heterogeneous sources. Moreover, insights hidden in the streams are inferred and extracted by logical reasoning. Handling large and complex streams in real-time challenges the capabilities of current systems. Therefore, this thesis studies how to improve the efficiency of processing and reasoning over semantic streams. It is composed of three projects that deal with different research problems motivated by real-world use cases. We propose new methods to address these problems and implement systems to test our hypotheses based on real datasets. The first project focuses on the problem that sudden increases in the input stream rate overload the system, causing a reduced or unacceptable performance. We propose an eviction technique that, when a spike in the input data rate happens, discards data from the system to ensure the response latency at the cost of a lower recall. The novelty of our solution lies in a data-aware approach that carefully prioritizes the data and evicts the less important ones to achieve a high result recall. The second project studies complex queries that need to integrate streams with remote and external background data (BGD). Accessing remote BGD is a very expensive process in terms of both latency and financial cost. We propose several methods to minimize the cost by exploiting the query and the data patterns. Our system only needs to retrieve data that are more critical to answer the query and avoids wasting resources on the remaining data in BGD. Lastly, as noise is inevitable in real-world semantic streams, the third project inves- tigates how to use logical reasoning to identify and exclude the noise from high-volume streams. We adopt a distributed stream processing engine (DSPE) to achieve scalability. On top of a DSPE, we optimize the reasoning procedures by balancing the costs of com- putation and communication. Therefore, reasoning tasks are compiled into efficient DSPE workflows that can be deployed across large-scale computing clusters.
Zusammenfassung Die Digitalisierung unserer Gesellschaft produziert massenweise Streams, wie beispiel- sweise Aktienkurse, Tweets und Sensordaten. Die Nutzung dieser Streams bringt enorme Vorteile mit sich. Im Kontext des Semantic Web wird Live-Information aus den Streams in Echtzeit abgefragt. Durch Integration mehrerer Streams aus unterschiedlichen Quellen kann Wissen entdeckt werden. Durch logische Schlüsse können verborgene Erkenntnisse aus den Streams gewonnen werden. Bestehende Systeme sind mit der zeitnahen Verarbeitung von grossen und komplexen Streams herausgefordert. Diese Arbeit untersucht Effizienzsteigerungen von Prozessierung und Schlussfolgerung in semantischen Streams. Sie besteht aus drei Projekten, welche unterschiedliche, aus der Praxis entnommene Forschungsfragen adressieren. Wir schlagen neue Methoden vor um diese anzugehen und implementieren Systeme zum testen unsere Hypothesen aufgrund realer Datensätze. Das erste Projekt konzentriert sich auf sprunghafte Anstiege der Eingangsrate, welche das System überlasten, und somit dessen Leistung bis in einen untragbaren Bereich her- absetzen können. Wir schlagen eine Methode vor, welche gezielt Daten aus dem System entfernt, um die Latenz auf Kosten des Recalls aufrechtzuerhalten. Neu an dieser Lösung ist der datenbezogene Ansatz, welcher Daten sorgfältig priorisiert und weniger wichtige Daten zuerst aussortiert, um den Recall des Resultates möglichst hoch zu halten. Im zweiten Projekt studierten wir komplexe Anfragen, welche nur durch eine Kombina- tion von Stream und zusätzlichen, entfernt gespeicherten Hintergrundinformation (HGI) beantwortet werden können. Zugriff auf HGI ist ein ebenso teurer wie zeitaufwändiger Prozess. Wir schlagen mehrere Methoden vor, welche Muster in Daten und Anfrage nutzen um die Kosten zu minimieren. Dadurch braucht unser System bloss Daten abzugreifen, welche für die Beantwortung der Anfrage kritisch sind, ohne wertvolle Ressourcen mit der Verarbeitung der restlichen HGI zu verschwenden. Letztendlich, da Rauschen in Streams unvermeidbar ist, untersucht das dritte Projekt, wie durch logisches Schlussfolgern Rauschen identifiziert und es aus des Verarbeitung ausgeschlossen werden kann. Eine verteilte Stream Processing Engine (DSPE) wurde als Grundlage angenommen, um Skalierbarkeit zu gewährleisten. Darauf aufbauend opti- mierten wir die Reasoning-Prozedur, in dem Kommunikation und Berechnung gegeneinan- der ausbalanziert werden. Dadurch werden Reasoning-Aufgaben als effiziente Abläufe for- muliert, welche auf gross angelegten Rechenclustern eingesetzt werden können.
Other Identification Number merlin-id:16449
PDF File Download from ZORA
Export BibTeX
EP3 XML (ZORA)