Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Large-scale Active Learning for Concept Detection in Video
Organization Unit
Authors
  • Simon Widmer
Supervisors
  • Luca Rossetto
  • Abraham Bernstein
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2021
Abstract Text Modern neural network based classifications system often require large training sets and struggle with degrading classification performance when confronted with unseen objects categories. This thesis investigates practical and effective ways to implement a large-scale active learning pipeline for concept detection in videos, which is capable to constantly learn new object categories from annotated images provided by human supervisors. The proposed pipeline uses an active learning loop with a simple uncertainty-based heuristic to select the most informative images for annotation to achieve this goal. The evaluation of four different convolutional neural networks for image feature embedding showed that the InceptionResNetV2 architecture delivers the best performance over all studied classification scenarios. Furthermore, there is no single classification methods which works best in all classification scenarios. It is advantageous to let the system chose the ‘best’ classifier for each classification task. Moreover, the classification performance can be further improved for very small training sets if extracted box images are added as training instances.
Zusammenfassung Moderne Klassifizierungssysteme, die auf neuronalen Netzen basieren, benötigen oft grosse Trainings-Sets und haben mit einer abnehmenden Klassifizierungsleistung zu kämpfen, wenn sie mit ungesehenen Objektkategorien konfrontiert werden. Diese Arbeit untersucht praktische und effektive Wege, um eine aktive Lernpipeline für die Konzepterkennung in Videos zu implementieren, welche in der Lage ist, ständig neue Objektkategorien aus annotierten Bildern zu lernen, die von Menschen bereitgestellt werden. Um dieses Ziel zu erreichen, verwendet die vorgeschlagene Pipeline eine aktive Lernschleife mit einer einfachen, auf Unsicherheit basierenden Heuristik, um die informativsten Bilder für die Annotation auszuwählen. Die Bewertung von vier verschiedenen Convolutional Neural Networks für die Einbettung von Bildmerkmalen hat gezeigt, dass die InceptionResNetV2-Architektur in allen untersuchten Klassifizierungsszenarien die beste Leistung erbringt. Ausserdem gibt es keine spezifische Klassifizierungsmethode, die in allen Klassifizierungsszenarien am besten funktioniert. Es ist vorteilhaft, dem System die Wahl des ‘besten’ Klassifikators für jede Klassifizierungsaufgabe zu überlassen. Darüber hinaus kann die Klassifizierungsleistung bei sehr kleinen Trainings-Sets weiter verbessert werden, wenn extrahierte Box-Bilder als zusätzliche Trainingsinstanzen verwendet werden.
PDF File Download
Export BibTeX