Not logged in.

Quick Search - Contribution

Contribution Details

Type	Master's Thesis
Scope	Discipline-based scholarship
Title	Facial Video Recognition via 3D Convolutional Networks
Organization Unit	Artificial Intelligence and Machine Learning (Manuel Günther)
Authors	Xinyi Zhang
Supervisors	Manuel Günther
Language	English
Institution	University of Zurich
Faculty	Faculty of Business, Economics and Informatics
Date	2022
Abstract Text	Face recognition has been popular in the video recently. As the development of deep learning, various CNNs models are implemented into face recognition such as ResNet, MobileNet, Mo- bileFaceNet. During this experiment, we verified that the light CNN model – Stacked2D, and 3D MobileFaceNet can extract features from several frames at the same time on the video dataset (YoutubeFaces). First, the baseline model – the original 2D MobileFaceNet combined ArcFace loss function model is trained from the face recognition task. Then, this model is implemented as the feature extractor in bob framework, which can construct a face recognition pipeline easily. Using the same process, the Stacked2D and 3D MobileFaceNet models with Arcface are trained using YTF dataset. In the end, we run the video recognition pipeline in bob framework and com- pare the results using different models. In this experiment, we verify that it is feasible to use 2D, Stacked2D, and 3D MobileFaceNet models in video face recognition, and the model with larger frames input can perform better because it can capture more spatial and temporal information from video data.
Zusammenfassung	Die Gesichtserkennung war in letzter Zeit im Video beliebt. Mit der Entwicklung von Deep Learning werden verschiedene CNNs Modelle in die Gesichtserkennung implementiert, wie zum Beispiel ResNet, MobileNet und MobileFaceNet. Während dieses Experiments haben wir veri- fiziert, dass das leichte CNN Modell wie Stacked2D und 3D MobileFaceNet die Merkmale aus mehreren Frames gleichzeitig auf dem Videodatensatz (YoutubeFaces) extrahieren kann. Zuerst wird das Basislinienmodell, die Kombination vom originalen 2D MobileFaceNet und ArcFace Verlustfunktionsmodell, aus der Gesichtserkennungsaufgabe trainiert. Dann wird dieses Modell als Merkmalsextrahierer im Bob Framework implementiert, das auf einfache Weise eine Gesicht- serkennungspipeline erstellen kann. Mit dem gleichen Verfahren werden die Stacked2D und 3D MobileFaceNet Modelle mit Arcface unter Verwendung des YTF-Datensatzes trainiert. Am Ende führen wir die Videoerkennungspipeline im bob Framework aus und vergleichen die Ergeb- nisse mit verschiedenen Modellen. In diesem Experiment verifizieren wir, dass es möglich ist, 2D, Stacked2D und 3D MobileFaceNet Modelle in der Video-Gesichtserkennung zu verwenden. Dieses Modell mit der Eingabe größerer Frames kann eine bessere Leistung erbringen, da es mehr räumliche und zeitliche Informationen aus Videodaten erfassen kann.
PDF File	Download
Export	BibTeX