Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Temporal Topic Evolution of Researchers Using Semi-Supervised Learning
Organization Unit
Authors
  • Gajendira R Sivajothi
Supervisors
  • Lorenz Hilty
  • Joachim Scholderer
  • Tian Guo
  • Nino Antulov-Fantulin
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2018
Abstract Text This thesis documents the development of a new technique for bibliometric analysis of scientific publication corpora. The technique tracks changes in topic interest among authors over time in a structured and automated fashion. The technique was developed in three phases. The first phase was data extraction (including titles, abstracts, year of publication, author names and “ground truth” topic labels for each publication). The data were retrieved by calling an open source publication repository, arXiv. In the second phase, three alternative topic modelling approaches were used to generate mixture component assignments (latent topics) for each document, based on the conditional distributions of terms per topic: latent Dirichlet allocation (LDA), latent semantic indexing (LSI) and the hierarchical Dirichlet process (HDP). In the third phase, two alternative approaches were used to automatically label the latent topics, using the terms that had been generated by the models in phase two. The first approach used neural embedding of vector representations of words (word2vec) whereas the second approach used a ranking-based statistical analysis (RB) of candidate labels for each latent topic, given its associated terms. Upon fine-tuning their parameters, the six combinations of topic modelling approaches (from phase two) and automatic topic labelling approaches (from phase three) were compared in terms of their performance. The results favoured a combination of latent semantic indexing (LSI) as the topic modelling approach and ranking-based statistical analysis (RB) as the automatic topic labelling approach. This combination produced topic labels that were closest in term similarity to the “ground truth” topics that had originally been retrieved for the publications in the corpus.
Zusammenfassung Die vorliegende Arbeit dokumentiert die Entwicklung eines neuen Verfahrens für die bibliometrische Analyse wissenschaftlicher Publikationskorpora. Das Verfahren modelliert längsschnittliche Veränderungen in den wissenschaftlichen Interessen von Autoren auf strukturierte und automatisierte Weise. Das Verfahren wurde in drei Schritten entwickelt. Die erste Phase bestand in Datenextraktion (Titel der Publikationen, Zusammenfassungen, Publikationsjahr, Autorennamen und “korrekte” Themenzuweisung). Die Daten wurden aus der frei zugänglichen Publikationsdatenbank arXiv abgerufen. In der zweiten Phase wurden drei alternative Topic-Modellierungstechniken eingesetzt, um die Dokumente, basierend auf den bedingten Verteilungen der Begriffe, Mischungskomponenten (latenten Themen bzw. Topics) zuzuordnen. Die verwendeten Techniken waren latente Dirichlet-Allokation (LDA), latente semantische Indizierung (LSI) und hierarchischer Dirichlet-Prozess (HDP). In der dritten Phase wurden mittels zweier alternativer Verfahren automatische Benennungen für die latenten Themen generiert. Das erste dieser Verfahren war die neurale Einbettung von Vektorrepräsentationen von Wörtern (word2vec), das zweite ein rangbasiertes statistisches Verfahren (RB) von Benennungskandidaten für jedes latente Thema. Nach Feinadjustierung ihrer Parameter wurden die sechs Kombinationen von Topic-Modellierungstechnik (aus Phase zwei) und automatisierter Benennungstechnik (aus Phase drei) hinsichtlich ihrer Leistungsfähigkeit verglichen. Die Ergebnisse favorisierten eine Kombination von latenter semantischer Indizierung (LSI) als Topic-Modellierungstechnik und rangbasierter statistischer Analyse (RB) als Benennungstechnik. Diese Kombination resultierte in Themenbenennungen, die hinsichtlich ihrer Wortähnlichkeit den ursprünglich aus der Datenbank extrahierten Publikationsthemen am nächsten kamen.
PDF File Download
Export BibTeX