Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Text Structure Reconstruction: Detection of Headers, Sentence Boundaries, Bullet Lists
Organization Unit
Authors
  • Heman Tanos
Supervisors
  • Martin Volk
  • Simon Clematide
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2022
Abstract Text When online job ads are downloaded and converted to a readable plaintext, errors often occur in terms of misinterpreted or misconverted control sequences, tokens and/or punctuation signs. This thesis deals with the restructuring of such job ad documents that contain structural damages to their syntactic units of types Sentence, List and Header. Using a pre-trained transformer-based neural network model and continuing pre-training, it can be shown that transfer learning can recognize and fix the defective documents. The data for the supervised training are derived from the HTML markups of the documents and labelled using IOBES tags. The contribution of this work is the set up and execution of the entire pipeline to verifiy the approach experimentally, with focus on automated German training data generation and word segmentation. The results are evaluated by the accuracy and a qualitative error analysis. A good performance can be achieved both for the retokenization and for the restructuring of a document without sentence final punctuation. The conclusion is that the approach is feasible and promising given good quality, noise free source data.
Zusammenfassung Wenn Stelleninserate vom Web heruntergeladen und in leserlichen Klartext umgewandelt werden, treten oft Fehler in Form von fehlinterpretierten bzw falsch konvertierten Steuerzeichen, Tokens und/oder Interpunktion auf. Diese Arbeit beschäftigt sich mit der Umstrukturierung von Stelleninseraten, deren strukturellen Elemente der Typen Satz, Header und Listenelement Schäden enthalten. Mithilfe eines vortrainierten, Transformer-basierten Modells des neuronalen Netzwerks wird dieses nachtrainiert. Die für das überwachte Lernen benötigten Trainingsdaten wurden aus den HTML Texten der Dokumente gewonnen und mit IOBES Tags gelabelled. Der Beitrag dieser Arbeit besteht in der Einrichtung und Durchführung der Pipeline zur experimentellen Verifizierung des Konzepts. Der Schwerpunkt liegt in der maschinellen Erstellung der deutschen Trainingdaten und der Worttrennung. Die Ergebnisse werden mit der Accuracy sowie einer qualitativen Fehleranalyse bewertet. Sowohl für die Worttrennung als auch für die Restrukturierung eines Dokuments ohne satzfinale Interpunktion konnte eine gute Performance erzielt werden. Daraus wird die Schlussfolgerung gezogen, dass der Ansatz bei Vorhandensein guter und rauscharmer Daten machbar und erfolgversprechend ist.
PDF File Download
Export BibTeX