Not logged in.
Quick Search - Contribution
Contribution Details
Type | Master's Thesis |
Scope | Discipline-based scholarship |
Title | Text Structure Reconstruction: Detection of Headers, Sentence Boundaries, Bullet Lists |
Organization Unit | |
Authors |
|
Supervisors |
|
Language |
|
Institution | University of Zurich |
Faculty | Faculty of Business, Economics and Informatics |
Date | 2022 |
Abstract Text | When online job ads are downloaded and converted to a readable plaintext, errors often occur in terms of misinterpreted or misconverted control sequences, tokens and/or punctuation signs. This thesis deals with the restructuring of such job ad documents that contain structural damages to their syntactic units of types Sentence, List and Header. Using a pre-trained transformer-based neural network model and continuing pre-training, it can be shown that transfer learning can recognize and fix the defective documents. The data for the supervised training are derived from the HTML markups of the documents and labelled using IOBES tags. The contribution of this work is the set up and execution of the entire pipeline to verifiy the approach experimentally, with focus on automated German training data generation and word segmentation. The results are evaluated by the accuracy and a qualitative error analysis. A good performance can be achieved both for the retokenization and for the restructuring of a document without sentence final punctuation. The conclusion is that the approach is feasible and promising given good quality, noise free source data. |
Zusammenfassung | Wenn Stelleninserate vom Web heruntergeladen und in leserlichen Klartext umgewandelt werden, treten oft Fehler in Form von fehlinterpretierten bzw falsch konvertierten Steuerzeichen, Tokens und/oder Interpunktion auf. Diese Arbeit beschäftigt sich mit der Umstrukturierung von Stelleninseraten, deren strukturellen Elemente der Typen Satz, Header und Listenelement Schäden enthalten. Mithilfe eines vortrainierten, Transformer-basierten Modells des neuronalen Netzwerks wird dieses nachtrainiert. Die für das überwachte Lernen benötigten Trainingsdaten wurden aus den HTML Texten der Dokumente gewonnen und mit IOBES Tags gelabelled. Der Beitrag dieser Arbeit besteht in der Einrichtung und Durchführung der Pipeline zur experimentellen Verifizierung des Konzepts. Der Schwerpunkt liegt in der maschinellen Erstellung der deutschen Trainingdaten und der Worttrennung. Die Ergebnisse werden mit der Accuracy sowie einer qualitativen Fehleranalyse bewertet. Sowohl für die Worttrennung als auch für die Restrukturierung eines Dokuments ohne satzfinale Interpunktion konnte eine gute Performance erzielt werden. Daraus wird die Schlussfolgerung gezogen, dass der Ansatz bei Vorhandensein guter und rauscharmer Daten machbar und erfolgversprechend ist. |
PDF File | Download |
Export | BibTeX |