Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Knowledge Graph Driven Text Generation Using Transformers
Organization Unit
Authors
  • David Lay
Supervisors
  • Matthias Baumgartner
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2020
Abstract Text Understanding the semantics and interpreting the information inside a knowledge graph is challenging for an untrained user. To ease the access to this knowledge, we investigate how natural language-like sentences can be generated from a sequence of knowledge graph entities and relations between them. Whereas early work is based on template-like architectures or specialized encoder-decoder architectures, this work focuses on the use of Transformers and large pretrained language models. To deal with real-world knowledge graphs and text across many di fferent domains we incorporate the T-REx dataset aligning Wikidata entities and relations with Wikipedia articles. We compare the performance between baseline models and netuned large pretrained language models on the task of generating Wikipedia alike sentences. Additionally, we show the impact of using an input sequence of Wikidata IDs over an input sequence of the corresponding labels. By training over 60 di fferent model con figurations, we do an exhaustive parameter search to investigate our models. Results suggest that netuning a pretrained language model outperforms the trained baseline model with respect to generating natural language-like sentences. Furthermore, we show that training using entity IDs over their respective labels requires task-speci fic adaptions with which the proposed models have difficulties.
Zusammenfassung Die Informationsgewinnung aus Knowledge Graphen ist aufgrund der Semantik und Komplexitat fur ungeübte Benutzer schwierig. Um dies zu vereinfachen, untersuchen wir die automatisierte Erstellung von Sätzen, basierend auf einer Sequenz von Knowledge Graph Entitäten. Während in früheren Arbeiten hauptsächlich Vorlagen oder spezialisierte Encoder-Decoder-Modelle trainiert wurden, konzentrieren wir uns auf die Verwendung von Transformern und bereits vortrainierten Modellen. Die Daten, die für das Training dieser Modelle verwendet werden, entspringen dem frei verfügbaren TREx Datenset. Dieses verbindet Wikidata Entitäten, inklusive deren Labels und IDs, mit Wikipediaartikeln. Basierend auf diesen Daten untersuchen wir über 60 Modelle auf ihre Fähigkeit der Satzgenerierung. Zudem wird der Einfluss einer Inputsequenz, basierend auf Wikidata IDs anstelle von Wikidata Labels, untersucht. Unsere Resultate zeigen, dass vortrainierte Modelle unsere eigens trainierten Modelle übertreff en. Ebenfalls ist das Erzeugen natürlicher Sätze basierend auf Input IDs deutlich schwieriger als jenes basierend auf einer Sequenz aus Labeln.
PDF File Download
Export BibTeX