Not logged in.

Contribution Details

Type Other Publication
Scope Discipline-based scholarship
Title Applying meta-blocking to improve efficiency in entity resolution
Organization Unit
Authors
  • Tobias Ammann
Language
  • English
How Published
Date 2014
Abstract Text This report compares two implementations of meta-blocking in terms of runtime and memory usage, and measures the accuracy of meta-blocking using a subset of the Musicbrainz database. We find that the implementation using a reversed index is more efficient than the naive implementation. Furthermore, we find that the dataset in its current form is unsuitable for meta-blocking, due to incomplete records and the presence of high-frequency tokens, which cause both implementations to approach O(n²) runtime and memory consumption (n being the number of records).
Zusammenfassung Diese Arbeit vergleicht Laufzeit und Speicherbenutzung zweier Implementationen von Meta-Blocking, sowie die Genauigkeit von Meta-Blocking mithilfe einer Untermenge der Musicbrainz Datenbank. Wir zeigen, dass die Implementation mit Reversed Index effizienter ist als die naive Implementation. Ausserdem zeigt sich, dass die verwendeten Daten in dieser Form ungeeignet sind: Unvollständige Datensätze und häufig auftauchende Werte verursachen in beiden Implementationen quadratische mit der Anzahl Datensätze ansteigende Laufzeit und Speicherbedarf.
PDF File Download
Export BibTeX