Not logged in.

Quick Search - Contribution

Contribution Details

Type	Bachelor's Thesis
Scope	Discipline-based scholarship
Title	Learning value evolution on real-world temporal data
Organization Unit	Database Technology (Michael Hanspeter Böhlen)
Authors	Andreas Albrecht
Supervisors	Michael Hanspeter Böhlen Pei Li
Language	English
Institution	University of Zurich
Faculty	Faculty of Economics, Business Administration and Information Technology
Number of Pages	60
Date	2013
Abstract Text	Temporal record linkage studies the problem of identifying records that refer to the same real-world entities over time. This is a challenging task because (1) real-world entities may change their attribute values as time goes by (e.g., a researcher may move from one affiliation to another) and (2) different entities may share the same value over time (e.g., two researchers with the same name). In order to address these challenges, the concept of time decay aims at capturing how information of entities evolves over time to improve linkage quality of records. This thesis proposes two methods for learning time decay and further investigates several string matching approaches on a real-world data set. Moreover, we consider the efficiency of the algorithms and propose an inverted index based approach to improve efficiency. The experiments on real-world data sets show that the two learning decay algorithms provide similar results on multiple sampled data sets. Furthermore, our algorithms improve the brute-force solution by at least two orders of magnitude.
Zusammenfassung	Temporale Duplikaterkennung (Temporal Record Linkage) versucht Datensätze über die Zeit hinweg zu identifizieren, die sich auf dasselbe Objekt beziehen. Dies ist herausfordernd, da (1) reale Objekte ihre Attributwerte verändern können (z.B. ein Wissenschaftler wechselt die Universität und damit seine Zugehörigkeit) und (2) unterschiedliche Objekte können den gleichen Attributwert aufweisen (z.B. zwei Wissenschaftler haben den gleichen Namen). Die Verfallszeit (Time Decay) versucht zu beschreiben, wie sich auf Objekte beziehende Informationen über die Zeit hinweg verändern. Ziel ist es, die Duplikaterkennung zu verbessern. Diese Arbeit behandelt zwei verschiedene Methoden, um die Verfallszeit von Attributwerten zu lernen. Des Weiteren werden verschiedene Ansätze untersucht, um Attributwerte realer Datensätze mit Hilfe von Ähnlichkeitsmassen ungefähr zu vergleichen. Zusätzlich wird die Effizienz der Algorithmen untersucht, die mit einem invertierten Index (Inverted Index) verbessert wird. Die an realen Datensätzen durchgeführten Experimente zeigen, dass die zwei vorgeschlagenen Methoden zu ähnlichen Ergebnissen führen und dass die Effizienz der Algorithmen im Vergleich zum brute-force Vorgehen um mindestens zwei Grössenordnungen verbessert werden kann.
PDF File	Download
Export	BibTeX