Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Transfer Learning in Small Image Databases
Organization Unit
Authors
  • Kevin Bohn
Supervisors
  • Manuel Günther
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2022
Abstract Text Existing research has addressed the effectiveness of transfer learning methods using as much available target data as possible. In contrast, in this thesis the classification performance trend of selected transfer learning techniques when 1 to 100 image representations per class are available during training is analyzed. Training followed by testing using classification accuracy was repeated 11 times with an increasing number of image samples per class. Thereby, the focus was on a few training samples per class. Transfer learning methods investigated include end-to-end classifications and variants adopting deep feature extraction, such as nearest neighbor classification or the subsequent application of a Support Vector Machine (SVM) classifier. Deep feature adaptations (no additional training, fine-tuning, and adapter network) were explored. The datasets Aircraft, Fruit and Vegetable, Indoor Scenes, Office-31, and Virus were examined, some closely related to ImageNet and others to a lesser extent. Moreover, AlexNet, ResNet-50, DenseNet-121, VGG-16, and MobileNet-V3 were included in the analysis, each pre-trained with ImageNet. The analysis revealed that ImageNet benchmarks could be used to select an appropriate pre-trained network for target datasets with overlapping ImageNet domains. Extracting deep features from the pre-trained network without training and enrolling a gallery comparing each class with an averaged feature representation to test images based on their cosine similarity outperformed fine-tuning approaches with up to 20 training images per class. With more than 20 images per class, fine-tuning approaches yield the highest performance. Feature extraction with subsequent usage of the SVM classifier provided the best performance of all methods examined, but only if more than 20 image samples per class were utilized. The advantage of the nearest neighbor classification compared to end-to-end classification became apparent. Furthermore, the amount of image data used to create the gallery was strongly related to the performance of the transfer learning method. When target datasets were dissimilar to ImageNet, superior performance was observed with a constant gallery including five image samples, which were not utilized during training. The results illustrated the dependence of the number of image samples per class and their relevance in selecting suitable transfer learning methods.
Zusammenfassung Die bisherige Forschung hat sich mit der Effektivität von Transfer-Learning-Methoden mit möglichst vielen verfügbaren Zieldaten beschäftigt. Im Gegensatz dazu wird in dieser Arbeit die Entwicklung der Klassifizierungsperformance ausgewählter Transfer-Learning-Verfahren analysiert, wenn beim Training 1 bis 100 Bildrepräsentationen pro Klasse zur Verfügung stehen. Das Training mit anschließendem Testing mittels Classification Accuracy wurde 11 Mal mit steigender Anzahl von Bildproben pro Klasse wiederholt. Dabei lag der Schwerpunkt auf einigen wenigen Übungsproben pro Klasse. Zu den untersuchten Transfer-Learning-Methoden gehören End-to-End-Klassifikationen und Varianten mit Deep Feature Extraktion, wie z. B. Nearest Neighbour-Klassifikation oder die anschliessende Anwendung eines Support Vector Machine (SVM)-Klassifikators. Deep Feature Adaptionen (kein zusätzliches Training, Fine-Tuning und Adapternetzwerk) wurden erforscht. Die Datensätze Aircraft, Fruit and Vegetable, Indoor Scenes, Office-31 und Virus, von denen einige eng mit ImageNet verwandt sind und andere weniger, wurden untersucht. Außerdem wurden AlexNet, ResNet-50, DenseNet-121, VGG-16 und MobileNet-V3 in die Analyse einbezogen, die jeweils mit ImageNet vortrainiert wurden. Die Analyse ergab, dass ImageNet-Benchmarks verwendet werden können, um ein geeignetes vortrainiertes Netzwerk für Zieldatensätze mit überlappenden ImageNet-Domänen auszuwählen. Das Extrahieren von Deep Features aus dem vortrainierten Netzwerk ohne Training und das Erstellen einer Galerie, die jede Klasse mit einer gemittelten Deep Feature Repräsentation mit Testbildern auf der Grundlage ihrer Kosinusähnlichkeit vergleicht, übertraf das Fine-Tuning mit bis zu 20 Trainingsbildern pro Klasse. Mit mehr als 20 Bildern pro Klasse, erzeugen Fine-Tuning Ansätze die höchsten Leistungen. Feature Extraction mit anschließender Verwendung des SVM-Klassifikators lieferte die beste Leistung aller untersuchten Methoden, allerdings nur, wenn mehr als 20 Bildproben pro Klasse verwendet wurden. Der Vorteil der Nearest-Neighbour-Klassifizierung gegenüber der End-to-End-Klassifizierung wurde deutlich. Die Menge der Bilddaten, die zur Erstellung der Galerie verwendet wurden, stand in engem Zusammenhang mit der Leistung der Transfer-Learning-Methode. Wenn die Zieldatensätze dem ImageNet nicht ähnlich waren, wurde eine bessere Leistung mit einer konstanten Galerie beobachtet, die fünf Bildbeispiele enthielt, die beim Training nicht verwendet wurden. Die Ergebnisse verdeutlichen die Abhängigkeit von der Anzahl der Bildbeispiele pro Klasse und deren Relevanz für die Auswahl geeigneter Transfer-Learning-Methoden.
PDF File Download
Export BibTeX