Not logged in.

Contribution Details

Type Bachelor's Thesis
Scope Discipline-based scholarship
Title Learning value evolution on real-world temporal data
Organization Unit
Authors
  • Andreas Albrecht
Supervisors
  • Michael Hanspeter Böhlen
  • Pei Li
Language
  • English
Institution University of Zurich
Faculty Faculty of Economics, Business Administration and Information Technology
Number of Pages 60
Date 2013
Abstract Text Temporal record linkage studies the problem of identifying records that refer to the same real-world entities over time. This is a challenging task because (1) real-world entities may change their attribute values as time goes by (e.g., a researcher may move from one affiliation to another) and (2) different entities may share the same value over time (e.g., two researchers with the same name). In order to address these challenges, the concept of time decay aims at capturing how information of entities evolves over time to improve linkage quality of records. This thesis proposes two methods for learning time decay and further investigates several string matching approaches on a real-world data set. Moreover, we consider the efficiency of the algorithms and propose an inverted index based approach to improve efficiency. The experiments on real-world data sets show that the two learning decay algorithms provide similar results on multiple sampled data sets. Furthermore, our algorithms improve the brute-force solution by at least two orders of magnitude.
Zusammenfassung Temporale Duplikaterkennung (Temporal Record Linkage) versucht Datensätze über die Zeit hinweg zu identifizieren, die sich auf dasselbe Objekt beziehen. Dies ist herausfordernd, da (1) reale Objekte ihre Attributwerte verändern können (z.B. ein Wissenschaftler wechselt die Universität und damit seine Zugehörigkeit) und (2) unterschiedliche Objekte können den gleichen Attributwert aufweisen (z.B. zwei Wissenschaftler haben den gleichen Namen). Die Verfallszeit (Time Decay) versucht zu beschreiben, wie sich auf Objekte beziehende Informationen über die Zeit hinweg verändern. Ziel ist es, die Duplikaterkennung zu verbessern. Diese Arbeit behandelt zwei verschiedene Methoden, um die Verfallszeit von Attributwerten zu lernen. Des Weiteren werden verschiedene Ansätze untersucht, um Attributwerte realer Datensätze mit Hilfe von Ähnlichkeitsmassen ungefähr zu vergleichen. Zusätzlich wird die Effizienz der Algorithmen untersucht, die mit einem invertierten Index (Inverted Index) verbessert wird. Die an realen Datensätzen durchgeführten Experimente zeigen, dass die zwei vorgeschlagenen Methoden zu ähnlichen Ergebnissen führen und dass die Effizienz der Algorithmen im Vergleich zum brute-force Vorgehen um mindestens zwei Grössenordnungen verbessert werden kann.
PDF File Download
Export BibTeX