Not logged in.

Contribution Details

Type Bachelor's Thesis
Scope Discipline-based scholarship
Title Scene Text Extraction for Retrieval of Visual Multimedia
Organization Unit
Authors
  • Alexander Theus
Supervisors
  • Luca Rossetto
  • Abraham Bernstein
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2021
Abstract Text The expansion of multimedia collections has made the quest for accessing the knowledge contained within them ever more onerous, and has rendered prior annotation unfeasible. As a consequence, vitrivr was developed which enables content-based retrieval via methods such as Query-by-Sketch, Query-by-Example, and many more. A yet unexplored piece of knowledge contained in visual multimedia is scene text. Textual information embedded in visual multimedia provides high-level semantic information about the content and context of the media, and can be leveraged for superior retrieval. For this purpose, this thesis explored and evaluated existing methods for scene text extraction in still images. Furthermore, a novel scene text extractor for videos called HyText was developed, which achieved state-of-the-art performance in my evaluation. The novelty of the proposed method relies on hybridizing tracking-by-detection and particle filtering to allow for enhanced inference time. The proposed method is implemented in vitrivr to enable the extraction and retrieval of scene text.
Zusammenfassung Mit der Vergrößerung von multimedialen Sammlungen wurde die Suche nach dem darin enthaltenen Wissen immer aufwändiger und eine manuelle Annotation unzumutbar. Als Konsequenz wurde vitrivr entwickelt, das ein inhaltsbasiertes Retrieval über Methoden wie Query-by-Sketch, Query-by-Example und viele mehr ermöglicht. Ein noch unerforschter Teil des in visuellen Multimedia-Inhalten enthaltenen Wissens ist der Szenentext. Textinformationen, die in visuellem Multimedia eingebettet sind, liefern hochrangige semantische Informationen über den Inhalt und den Kontext der Medien und können für ein besseres Retrieval genutzt werden. Zu diesem Zweck wurden in dieser Arbeit bestehende Methoden zur Szenentextextraktion in Standbildern untersucht und evaluiert. Darüber hinaus wurde ein neuartiger Szenentextextraktor für Videos namens HyText entwickelt, der in meiner Evaluierung sehr hohe Leistung erzielte. Die Neuartigkeit der vorgeschlagenen Methode liegt in der Hybridisierung von Tracking-by-Detection und Partikelfilterung, um eine verbesserte Inferenzzeit zu ermöglichen. Die vorgeschlagene Methode ist in vitrivr implementiert, um die Extraktion und Abfrage von Szenentext zu ermöglichen.
PDF File Download
Export BibTeX