Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Style Transfer Algorithm for Online News
Organization Unit
Authors
  • Lukas Yu
Supervisors
  • Lucien Heitz
  • Annette Rios
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2022
Abstract Text In an experimental setting, data anonymization is vital to get valid results. For studies dealing with news articles, white-labelling their source is a non-trivial task, since news outlets might possess traceable writing styles. In this thesis, modern neural network architectures for natural language processing are utilized to transfer texts to a uniform style. The method does not rely on parallel corpora, which is usually the bottleneck for many systems. Instead, a pseudo-parallel corpus is created using monolingual data and masked-language modeling. Additionally, a new scraper architecture is designed and implemented to easily obtain article from news websites and store them in a homogeneous format.
Zusammenfassung In wissenschaftliche Experimente ist es äusserst wichtig, alle relevante Daten gründlich zu anonymisieren. Für Experimente mit Newsartikeln ist es besonders schwierig, sie effektiv von ihren Quellen zu entkoppeln. Versuchspersonen könnten anhand des Schreibstils erkennen, von wo sie stammen. Diese Arbeit befasst sich damit, mit modernen neurale Netzen Texte in einem einheitlichen Stil zu transformieren. Die neue Methode benötigt keine parallele Datensätze, was üblicherweise die grösste Einschränkung für neurale Netze ist. Ein pseudo-paralleles Korpus wird mit einfachen Artikeln mithilfe von Masked-language Modelling erstellt. Zusätzlich wird ein neues Scrapersystem entworfen und implementiert, um Artikel von Webseiten von Zeitungen zu extrahieren und sie in einem homogenen Format abzuspeichern.
PDF File Download
Export BibTeX