Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Table Detection and Structure Recognition; A pragmatic approach
Organization Unit
Authors
  • Pratyush Singh
Supervisors
  • Manuel Günther
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2022
Abstract Text Tables are one of the most convenient ways to present complex, correlated, and structured information. While rule and heuristic based approaches have long dominated the table detection and structure recognition, their usefulness has been confined to a subset of tables that follow these rules. Significant research has been conducted to localize table structure, the majority of which focuses on using heuristics and rules with the assistance of optical character recognition (OCR) to manually select layout characteristics of the tables. With the rise of Deep Learning, new models have shown to be applicable across multiple unseen domains by incorporating transfer learning. This thesis presents an end-to-end object detection approach to detect tables and recognize their structures in a document and thus, help in table data extraction with the use of a deep learning model namely, Faster R-CNN. This work will also introduce a new metric based on Intersection over Union (IoU) for the task of table detection which does not penalize large bounding box predictions up to a defined extent and reduces the dependency of the F1 score on the chosen IoU threshold. A significant amount of experiments will be discussed on many popular publicly available datasets like ICDAR 2013, ICDAR 2019, ISRI-OCR, Marmot, TableBank, and PubTables-1M to carefully adapt and design the parameters of the Faster R-CNN model and demonstrate the robustness of the model across unseen datasets. The model present in this thesis outperforms other models including a transformer-based model to establish the state-of-the-art results on these datasets proving once again the superiority of the Faster R-CNN architecture.
Zusammenfassung Tabellen sind eine der bequemsten Möglichkeiten zur Darstellung komplexer, korrelierter und strukturierter Informationen. Während regelbasierte und heuristische Ansätze lange Zeit die Erkennung von Tabellen und deren Struktur dominiert haben, ist ihr Nutzen auf eine Teilmenge von Tabellen beschränkt, die diesen Regeln folgen. Es wurden umfangreiche Forschungsarbeiten zur Lokalisierung von Tabellenstrukturen durchgeführt, die sich größtenteils auf die Verwendung von Heuristiken und Regeln mit Hilfe von optischer Zeichenerkennung (OCR) zur manuellen Auswahl von Layoutmerkmalen der Tabellen konzentrieren. Mit dem Aufkommen von Deep Learning haben neue Modelle gezeigt, dass sie durch die Einbeziehung von Transferlernen auf mehrere ungesehene Domänen anwendbar sind. In dieser Arbeit wird ein durchgängiger Ansatz zur Objekterkennung vorgestellt, um Tabellen zu erkennen und ihre Strukturen in einem Dokument zu erkennen und somit bei der Extraktion von Tabellendaten mit Hilfe eines Deep-Learning-Modells, nämlich Faster R-CNN, zu helfen. In dieser Arbeit wird auch eine neue Metrik auf der Grundlage von Intersection over Union (IoU) für die Aufgabe der Tabellenerkennung eingeführt, die große Bounding-Box-Vorhersagen bis zu einem bestimmten Ausmaß nicht benachteiligt und die Abhängigkeit des F1-Scores vom gewählten IoU-Schwellenwert reduziert. Eine Vielzahl von Experimenten mit vielen beliebten öffentlich zugänglichen Datensätzen wie ICDAR 2013, ICDAR 2019, ISRI-OCR, Marmot, TableBank und PubTables-1M werden diskutiert, um die Parameter des Faster R-CNN-Modells sorgfältig anzupassen und zu entwerfen und die Robustheit des Modells bei unbekannten Datensätzen zu demonstrieren. Das in dieser Arbeit vorgestellte Modell übertrifft andere Modelle, einschließlich eines auf Transformer basierenden Modells, um die neuesten Ergebnisse dieser Datensätze zu ermitteln, was erneut die Überlegenheit der Faster R-CNN-Architektur beweist.
PDF File Download
Export BibTeX