Contribution Details

Type Bachelor's Thesis
Scope Discipline-based scholarship
Title The Argument Annotator Pipeline - Generate Visually Annotated Documents
Organization Unit
  • Joel Watter
  • Florian Ruosch
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2021
Abstract Text The research on argumentation in natural text is evolving, but a perfect way to model, annotate and mine argumentative structures is yet to be found. High-quality annotation corpora are created in complex and time consuming manual work, to represent annotations for the training, testing and improvement of automated Argument Mining tools. The value such corpora have for a machine is out of question. But the fact, that the referenced argumentative structures in the annotation file of the corpus are completely separated from their actual context, within their original text, makes it difficult for a human reader to benefit on a similar level from the data they incorporate. In this thesis, we address that problem and implement a tool to generate visually annotated PDF documents from corpus data. The produced documents support human readers to understand and comprehend the visible annotations and the presented relationships they have to other annotations within the text. Attaching and embedding the original text and annotation files as well as the annotation structure, created during the creation process to our documents, makes these PDF documents to an all in one file solution. As proof of our concept, we processed an example corpus with our tool.
Zusammenfassung Die Forschung zu argumentativen Strukturen in natürlichen Texten entwickelt sich kontinuierlich weiter. Eine perfekte Methode zur Modellierung, Annotation und Identifikation argumentativer Strukturen muss aber noch gefunden werden. Qualitativ hochwertige Annotationskorpora werden in komplexer und zeitaufwändiger Handarbeit erstellt, um als Daten Grundlage für das Trainieren, Testen und Verbessern von automatisierten Argument Mining Tools zu dienen. Der Wert, den solche Korpora für eine Maschine haben, steht ausser Frage. Aber die Tatsache, dass die referenzierten, argumentativen Strukturen in der Annotationsdatei des Korpus vollständig von ihrem eigentlichen Kontext im Originaltext getrennt sind, erschwert es einem menschlichen Leser, auf einer ähnlichen Ebene von den darin enthaltenen Informationen zu profitieren. In dieser Arbeit widmen wir uns diesem Problem und implementieren ein Werkzeug, um visuell annotierte PDF-Dokumente aus Korpusdaten zu erzeugen. Die resultierenden Dokumente unterstützen den menschlichen Leser dabei, die sichtbaren Annotationen und die dargestellten Beziehungen zu anderen Annotationen im Text, verstehen und nachvollziehen zu können. Durch das Anhängen und Einbetten der ursprünglichen Text- und Annotationsdateien und der, während des Generierungsprozesses erstellten, Annotationsstruktur in unsere Dokumente, werden diese PDF-Dokumente zu einer Komplettlösung in einer Datei. Zur Validierung unseres Konzepts haben wir einen Beispielkorpus mit unserem Tool prozessiert.
