Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Adapting Pre-trained Transformer Language Models for Mapping Texts on Domain-Specific Ontologies
Organization Unit
Authors
  • Tanmay Chimurkar
Supervisors
  • Martin Volk
  • Simon Clematide
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2023
Abstract Text This master thesis explores domain adaptation methods for pre-trained Large Language Models (LLMs) to map natural language mentions from a text genre onto a target domain ontology based on cosine similarity in a semantic vector space. For the thesis, the input mentions are skill requirement mentions extracted from Swiss job ad postings written in German or English, and the target domain onto which these terms have to be mapped is the European Skills, Competences, Qualifications and Occupations (ESCO) ontology. The objective of this task is to track changes in the labor market and help recruiters fill positions based on skill requirements fulfilled by candidates. The thesis explores three methods: Masked Language Modelling, Multiple Negative Ranking Loss, and binary classification method for further pre-training in order to adapt LLMs to a target domain ontology. Experiments were conducted on 15 model variants using different input data and starting models. Two gold standard datasets, one consisting of randomly selected skill requirement mentions, and the other specifically crafted from challenging cases, were used for evaluating model performance. The evaluations were created by annotating the top suggestions made by our model variants. Mean Average Precision (MAP) scores were computed based on human annotations of the suggestions, made by each model variant for each term in the gold standard datasets. MAP is used as an evaluation metric since more than one mapping might be correct or acceptable, and a good ranking of the appropriate ontology concepts can be measured via this metric. The MNR models with the hard negative sampling strategy, wherein the negative samples are taken with lexical and semantic similarities to the anchor term, and domain adaptation on both the job-ads data and the ESCO ontology data were found to be the best-performing model variants for both the English and German languages. The thesis concludes that domain adaptation on both the input texts and the target domain is beneficial for mapping mentions from the input genre onto the target domain. It also suggests that using a hard negative sampling method for creating the MNR data is beneficial compared to a random negative sampling method.
Zusammenfassung Diese Masterarbeit untersucht Methoden zur Domänenanpassung für vortrainierte Large Language Models (LLMs), um natürlichsprachliche Erwähnungen aus einem Textgenre auf eine Zieldomänenontologie abzubilden, basierend auf Kosinusähnlichkeit in einem semantischen Vektorraum. In dieser Arbeit sind die Input-Erwähnungen Erwähnungen von Qualifikationsanforderungen, die aus Schweizer Stellenanzeigen in deutscher oder englischer Sprache extrahiert wurden, und die Zieldomäne, auf die diese Begriffe abgebildet werden müssen, ist die European Skills, Competences, Qualifications and Occupations (ESCO) Ontologie. Ziel dieser Aufgabe ist es, Veränderungen auf dem Arbeitsmarkt zu verfolgen und Personalverantwortliche bei der Besetzung von Stellen auf der Grundlage der von den Bewerbern erfüllten Qualifikationsanforderungen zu unterstützen. In dieser Arbeit werden drei Methoden untersucht: Masked Language Modelling, Multiple Negative Ranking Loss und eine binäre Klassifizierungsmethode für weiteres Pre-Training, um LLMs an eine Zieldomänen-Ontologie anzupassen. Es wurden Experimente mit 15 Modellvarianten unter Verwendung unterschiedlicher Eingabedaten und Ausgangsmodelle durchgeführt. Zur Bewertung der Modellleistung wurden zwei Goldstandard-Datensätze verwendet, von denen einer aus zufällig ausgewählten Erwähnungen von Qualifikationsanforderungen besteht und der andere speziell aus anspruchsvollen Fällen zusammengestellt wurde. Die Auswertungen wurden durch Annotation der besten Vorschläge unserer Modellvarianten erstellt. Die mittlere durchschnittliche Präzision (MAP) wurde auf der Grundlage der menschlichen Annotationen der Vorschläge berechnet, die von jeder Modellvariante für jeden Begriff in den Goldstandard-Datensätzen gemacht wurden. MAP wird als Bewertungsmaßstab verwendet, da mehr als eine Zuordnung richtig oder akzeptabel sein kann und ein gutes Ranking der entsprechenden Ontologiekonzepte anhand dieses Maßstabs gemessen werden kann. Die MNR-Modelle mit der Hard-Negative-Sampling-Strategie, bei der negative Stichproben mit lexikalischen und semantischen Ähnlichkeiten zum Ankerterminus genommen werden, und die Domänenanpassung sowohl für die Daten der Stellenanzeigen als auch für die Daten der ESCO-Ontologie erwiesen sich sowohl für die englische als auch für die deutsche Sprache als die leistungsstärksten Modellvarianten. Die Arbeit kommt zu dem Schluss, dass die Domänenanpassung sowohl für die Eingabetexte als auch für die Zieldomäne von Vorteil ist, um Erwähnungen aus dem Eingabegenre auf die Zieldomäne abzubilden. Sie legt auch nahe, dass die Verwendung einer harten negativen Stichprobenmethode für die Erstellung der MNR-Daten im Vergleich zu einer zufälligen negativen Stichprobenmethode von Vorteil ist.
PDF File Download
Export BibTeX