Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Emotion Recognition in Couples using Transfer Learning; A Multimodal Approach
Organization Unit
Authors
  • Madhav Sachdeva
Supervisors
  • Thomas Fritz
  • George Boateng
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2022
Abstract Text Automatic emotion recognition in couples may be useful for understanding mental health risks or evaluating outcomes for chronic disease management. However, emotion recognition in couples is under-researched due to difficulties in obtaining data and overcoming issues such as limited samples, noise, and imbalance. In this thesis, a novel in-the-wild dataset called DyMand is investigated for emotion recognition in couples. Furthermore, transfer learning models are developed using the public datasets VAMand K-EmoCon, and the best neural network layers for fine-tuning are demonstrated. In addition, multimodal fusion approaches (early fusion and late fusion) are investigated to utilize different modalities of physiological, acoustic, and linguistic data. Additionally, multi-modal fusion is compared across these modalities and this thesis demonstrates which modalities can improve couples emotion recognition. Furthermore, the developed transfer learning models could improve performance across all modalities by up to 12%.
Zusammenfassung Die automatische Erkennung von Emotionen bei Paaren kann nützlich sein, um Risiken für die psychische Gesundheit zu verstehen oder die Ergebnisse der Behandlung chronischer Krankheiten zu bewerten. Die Erkennung von Emotionen bei Paaren ist jedoch noch wenig erforscht, da es schwierig ist, Daten zu erhalten und Probleme wie begrenzte Stichproben, Rauschen und Unausgewogenheit zu überwinden. In dieser Arbeit wird ein neuartiger "in-the-wild"-Datensatz namens DyMand für die Emotionserkennung bei Paaren untersucht. Darüber hinaus werden Transfer-Learning-Modelle unter Verwendung der öffentlichen Datensätze VAM und K-EmoCon entwickelt und die besten neuronalen Netzwerkschichten für die Feinabstimmung aufgezeigt. Darüber hinaus werden multimodale Fusionsansätze (frühe Fusion und späte Fusion) untersucht, um verschiedene Modalitäten physiologischer, akustischer und linguistischer Daten zu nutzen. Darüber hinaus wird die multimodale Fusion zwischen diesen Modalitäten verglichen und es wird gezeigt, welche Modalitäten die Emotionserkennung von Paaren verbessern können. Darüber hinaus konnten die entwickelten Transfer-Learning-Modelle die Leistung über alle Modalitäten hinweg um bis zu 12% verbessern.
PDF File Download
Export BibTeX