Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Facial Video Recognition via 3D Convolutional Networks
Organization Unit
Authors
  • Xinyi Zhang
Supervisors
  • Manuel Günther
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2022
Abstract Text Face recognition has been popular in the video recently. As the development of deep learning, various CNNs models are implemented into face recognition such as ResNet, MobileNet, Mo- bileFaceNet. During this experiment, we verified that the light CNN model – Stacked2D, and 3D MobileFaceNet can extract features from several frames at the same time on the video dataset (YoutubeFaces). First, the baseline model – the original 2D MobileFaceNet combined ArcFace loss function model is trained from the face recognition task. Then, this model is implemented as the feature extractor in bob framework, which can construct a face recognition pipeline easily. Using the same process, the Stacked2D and 3D MobileFaceNet models with Arcface are trained using YTF dataset. In the end, we run the video recognition pipeline in bob framework and com- pare the results using different models. In this experiment, we verify that it is feasible to use 2D, Stacked2D, and 3D MobileFaceNet models in video face recognition, and the model with larger frames input can perform better because it can capture more spatial and temporal information from video data.
Zusammenfassung Die Gesichtserkennung war in letzter Zeit im Video beliebt. Mit der Entwicklung von Deep Learning werden verschiedene CNNs Modelle in die Gesichtserkennung implementiert, wie zum Beispiel ResNet, MobileNet und MobileFaceNet. Während dieses Experiments haben wir veri- fiziert, dass das leichte CNN Modell wie Stacked2D und 3D MobileFaceNet die Merkmale aus mehreren Frames gleichzeitig auf dem Videodatensatz (YoutubeFaces) extrahieren kann. Zuerst wird das Basislinienmodell, die Kombination vom originalen 2D MobileFaceNet und ArcFace Verlustfunktionsmodell, aus der Gesichtserkennungsaufgabe trainiert. Dann wird dieses Modell als Merkmalsextrahierer im Bob Framework implementiert, das auf einfache Weise eine Gesicht- serkennungspipeline erstellen kann. Mit dem gleichen Verfahren werden die Stacked2D und 3D MobileFaceNet Modelle mit Arcface unter Verwendung des YTF-Datensatzes trainiert. Am Ende führen wir die Videoerkennungspipeline im bob Framework aus und vergleichen die Ergeb- nisse mit verschiedenen Modellen. In diesem Experiment verifizieren wir, dass es möglich ist, 2D, Stacked2D und 3D MobileFaceNet Modelle in der Video-Gesichtserkennung zu verwenden. Dieses Modell mit der Eingabe größerer Frames kann eine bessere Leistung erbringen, da es mehr räumliche und zeitliche Informationen aus Videodaten erfassen kann.
PDF File Download
Export BibTeX