Not logged in.

Contribution Details

Type Bachelor's Thesis
Scope Discipline-based scholarship
Title Enhanced String Similarity Scoring for Company Entities
Organization Unit
Authors
  • Julian Minder
Supervisors
  • Michael Hanspeter Böhlen
  • Thomas Gschwind
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2020
Abstract Text This thesis introduces a method to improve the string similarity of company names by identifying information about semantic substructures in company names. The method consists of two collaborating algorithms that firstly use string frequencies to detect distinguishable tokens and secondly add semantic understanding of company names by identifying industry metadata. Both algorithms are based on an analysis of frequencies in a large corpus of company records. It is demonstrated that the algorithms implemented in the Record Linkage System by Gschwind et al. [1] are able to enhance the similarity function effectively and improve company record matching. [1] T. Gschwind, C. Miksovic, J. Minder, K. Mirylenka, and P. Scotton. Fast record linkage for company entities. In Proceedings - 2019 IEEE International Conference on Big Data, Big Data 2019, 2019.
Zusammenfassung Diese Arbeit präsentiert eine Methode zur Verbesserung der string similarity von Firmennamen, indem Informationen über semantische Substrukturen in einem Firmennamen identifiziert werden. Die Methode besteht aus zwei zusammenarbeitenden Algorithmen. Dabei werden erstens string-Häufigkeiten verwendet, um differenzierbare tokens in einem Firmennamen zu erkennen. Zweitens wird durch die Identifizierung von Branchenmetadaten ein semantisches Verständnis von Firmennamen inkorporiert. Beide Algorithmen basieren auf der Analyse von Häufigkeiten in einem grossen Korpus von Firmendatensätzen. Es wird gezeigt, dass die im Record Linkage System von Gschwind et al. [1] implementierten Algorithmen die Similarity Function effektiv optimieren und das Matching von Firmendaten verbessern. [1] T. Gschwind, C. Miksovic, J. Minder, K. Mirylenka, and P. Scotton. Fast record linkage for company entities. In Proceedings - 2019 IEEE International Conference on Big Data, Big Data 2019, 2019.
PDF File Download
Export BibTeX