Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title IVIE-Docs: A Visual-Interactive Tool for Information Extraction from Documents through Clustering and Data Labeling
Organization Unit
Authors
  • Andrea Meier
Supervisors
  • Jürgen Bernard
  • Moritz Platscher
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2022
Abstract Text Information Extraction (IE) deals with the task of extracting targeted information from documents, such as the invoice amount in an invoice. In order to apply IE in practice, a corresponding machine-learning model must first be trained, for example a Named Entity Recognition (NER) model. This poses several challenges: First, the more specifically the models are trained on a concrete document template, the better they are, which requires that the documents be sorted before training. Second, the documents must be annotated by a human. Both of these are time-consuming and repetitive tasks that do not utilize the human’s potential. To address these issues, I have developed IVIE-Docs, an Interactive Visual Information Extraction tool for Documents that includes a clustering component and a NER component to complete the process of training NER models. The clustering component allows users to quickly group their documents. In the NER component, active learning principles are used to identify those documents that can train the NER model the fastest. Users can decide which document they consider most useful based on multiple information sources for active learning. A particular challenge here is that clustering occurs at the document-level, while NER is trained at the word-level. Moreover, in classical active learning, one instance of the same granularity as the prediction is proposed at a time. This was not practical in my approach, since not only a single word should be labeled, but a complete document. In IVIE-Docs, two measures help to close the granularity gap. A new document layout vector based on layout information of the individual words created a consistent basis between the clustering and the NER model. Second, the individual word predictions are aggregated at the document level to enable cross-granularity active learning. IVIE-Docs was tested in two studies with a total of 6 subjects. The results show that users were able to cluster their documents based on the document layout vector and that they achieved better results using the active learning components with fewer labeled documents than with a random selection.
Zusammenfassung Information Extraction (IE) beschäftigt sich mit der Aufgabe gezielte Informationen aus Dokumenten zu extrahieren, wie beispielsweise den Rechnungsbetrag in einer Rechnung. Um IE in der Praxis anzuwenden, muss zuerst ein entsprechendes maschinell lernendes Modell trainiert werden, zum Beispiel ein Named Entity Recognition (NER) Modell. Dies bringt mehrere Herausforderungen mit sich: Zum einen sind die Modelle besser je spezifischer sie auf einer konkreten Dokumentenvorlage trainiert wurden, was es bedingt, dass die Dokumente vor dem Training sortiert werden müssen. Zum anderen müssen die Dokumente von einem Menschen annotiert werden. Beides sind zeitintensive und repetitive Aufgaben, die das Potential des Menschen nicht ausschöpfen. Um diese Probleme anzugehen habe ich IVIE-Docs entwickelt, ein Interaktives Visuelles InformationsExtraktions Tool für Dokumente, dass mit einer Clustering Komponente und einer NER Komponente den kompletten Arbeitsprozess zum trainieren von NER Modellen umfasst. Die Clustering Komponente erlaubt es den Nutzern ihre Dokumente schnell zu gruppieren. In der NER-Komponente werden Active Learning Prinzipien eingesetzt, um diejenigen Dokumente zu identifizieren, die das NER Modell am schnellsten trainieren können. Die Nutzer können basierend auf mehreren Active Learning Informationen entscheiden, welches Dokument sie als am sinnvollsten betrachten. Eine besondere Herausforderung hierbei ist, dass das Clustering auf der Dokumentenebene stattfindet, während das NER auf der Wortebene trainiert wird. Zudem wird beim klassischen Active Learning jeweils eine Instanz der gleichen Granularität wie der Vorhersage vorgeschlagen. Dies war in meinem Ansatz nicht praktikabel da nicht nur ein einzelnes Wort gelabelt werden soll, sondern ein komplettes Dokument. In IVIE-Docs helfen zwei Massnahmen die Granularitätslücke zu schliessen. Ein neuer Dokumentenlayout-Vektor, der auf Layoutinformationen der einzelnen Wörter basiert, schaffte eine einheitliche Basis zwischen dem Clustering and dem NER-Modell. Zweitens werden die einzelnen Wortvorhersagen auf dem Dokumentlevel aggregiert, um ein granularitätsübergreifendes Active Learning zu ermöglichen. IVIE-Docs wurde in zwei Studien mit insgesamt 6 Probanden getestet. Die Resultate zeigen, dass die Nutzer in der Lage waren ihre Dokumente basierend auf dem Dokument Layout Vektor zu clustern und dass sie mithilfe der Active Learning Komponenten mit weniger gelabelten Dokumenten bessere Resultate erzielten als mit einer zufälligen Auswahl.
PDF File Download
Export BibTeX