Not logged in.
Quick Search - Contribution
Contribution Details
Type | Other Publication |
Scope | Discipline-based scholarship |
Title | Applying meta-blocking to improve efficiency in entity resolution |
Organization Unit | |
Authors |
|
Language |
|
How Published | |
Date | 2014 |
Abstract Text | This report compares two implementations of meta-blocking in terms of runtime and memory usage, and measures the accuracy of meta-blocking using a subset of the Musicbrainz database. We find that the implementation using a reversed index is more efficient than the naive implementation. Furthermore, we find that the dataset in its current form is unsuitable for meta-blocking, due to incomplete records and the presence of high-frequency tokens, which cause both implementations to approach O(n²) runtime and memory consumption (n being the number of records). |
Zusammenfassung | Diese Arbeit vergleicht Laufzeit und Speicherbenutzung zweier Implementationen von Meta-Blocking, sowie die Genauigkeit von Meta-Blocking mithilfe einer Untermenge der Musicbrainz Datenbank. Wir zeigen, dass die Implementation mit Reversed Index effizienter ist als die naive Implementation. Ausserdem zeigt sich, dass die verwendeten Daten in dieser Form ungeeignet sind: Unvollständige Datensätze und häufig auftauchende Werte verursachen in beiden Implementationen quadratische mit der Anzahl Datensätze ansteigende Laufzeit und Speicherbedarf. |
PDF File | Download |
Export | BibTeX |