Not logged in.
Quick Search - Contribution
Contribution Details
Type | Master's Thesis |
Scope | Discipline-based scholarship |
Title | Knowledge Graph Driven Text Generation Using Transformers |
Organization Unit | |
Authors |
|
Supervisors |
|
Language |
|
Institution | University of Zurich |
Faculty | Faculty of Business, Economics and Informatics |
Date | 2020 |
Abstract Text | Understanding the semantics and interpreting the information inside a knowledge graph is challenging for an untrained user. To ease the access to this knowledge, we investigate how natural language-like sentences can be generated from a sequence of knowledge graph entities and relations between them. Whereas early work is based on template-like architectures or specialized encoder-decoder architectures, this work focuses on the use of Transformers and large pretrained language models. To deal with real-world knowledge graphs and text across many different domains we incorporate the T-REx dataset aligning Wikidata entities and relations with Wikipedia articles. We compare the performance between baseline models and netuned large pretrained language models on the task of generating Wikipedia alike sentences. Additionally, we show the impact of using an input sequence of Wikidata IDs over an input sequence of the corresponding labels. By training over 60 different model configurations, we do an exhaustive parameter search to investigate our models. Results suggest that netuning a pretrained language model outperforms the trained baseline model with respect to generating natural language-like sentences. Furthermore, we show that training using entity IDs over their respective labels requires task-specific adaptions with which the proposed models have difficulties. |
Zusammenfassung | Die Informationsgewinnung aus Knowledge Graphen ist aufgrund der Semantik und Komplexitat fur ungeübte Benutzer schwierig. Um dies zu vereinfachen, untersuchen wir die automatisierte Erstellung von Sätzen, basierend auf einer Sequenz von Knowledge Graph Entitäten. Während in früheren Arbeiten hauptsächlich Vorlagen oder spezialisierte Encoder-Decoder-Modelle trainiert wurden, konzentrieren wir uns auf die Verwendung von Transformern und bereits vortrainierten Modellen. Die Daten, die für das Training dieser Modelle verwendet werden, entspringen dem frei verfügbaren TREx Datenset. Dieses verbindet Wikidata Entitäten, inklusive deren Labels und IDs, mit Wikipediaartikeln. Basierend auf diesen Daten untersuchen wir über 60 Modelle auf ihre Fähigkeit der Satzgenerierung. Zudem wird der Einfluss einer Inputsequenz, basierend auf Wikidata IDs anstelle von Wikidata Labels, untersucht. Unsere Resultate zeigen, dass vortrainierte Modelle unsere eigens trainierten Modelle übertreffen. Ebenfalls ist das Erzeugen natürlicher Sätze basierend auf Input IDs deutlich schwieriger als jenes basierend auf einer Sequenz aus Labeln. |
PDF File | Download |
Export | BibTeX |