Not logged in.

Contribution Details

Type Bachelor's Thesis
Scope Discipline-based scholarship
Title Automatically Detecting Interruptions in the Office
Other Titles a Multi-modal Approach to Interaction Analysis
Organization Unit
Authors
  • Christoph Vogel
Supervisors
  • Thomas Fritz
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Number of Pages 54
Date 2019
Abstract Text The goal of this thesis is to evaluate whether it is possible to detect interruptions of knowledge workers in a open-plan office using audio and video recordings. To achieve a proof of concept, two separate pilot studies were conducted at an industrial company in November and December of 2018. In the first study, two cameras were installed such that they could produce a stereoscopic representation of the surroundings. People were detected on the video recording by applying the image differencing technique known in computer vision. Through triangulation of the detected people, their position in 3D space could be determined. This information was then processed in a heuristic which aims at recognizing interactions between people and interruptions in the work place based on their distance in space and their movements. In the second study, the pre-existing self-monitoring software PersonalAnalytics was amended by a new module which stores the audio signal received from a connected omni-directional microphone to a local file and tries to determine whether someone is speaking. For this purpose, a software for speaker diarization was used which uses mel-frequency cepstrum coefficients as features and applies a Gaussian mixture model on them. The data gathered in these studies were analysed and the quality of the detection was evaluated. This showed that the approach to detect interruptions using audio and video data is practicable in principle but needs still some improvement to compromise a useful system. This applies in particular to the method used for voice activity detection which produces an intolerable high amount of false positives. Based on the findings of this study, additional research is needed to cope with aforementioned challenges. First, improvements to the algorithms used in this approach are possible and should be implemented. Second, the approaches for interruption detection could be combined to achieve a more reliable system.
Zusammenfassung Das Ziel der vorliegenden Arbeit ist es, zu evaluieren, ob die Detektion von Unterbrechungen des Arbeitsprozesses von Wissensarbeitern in einem Grossraum-Büro mittels Audio- und Videoaufnahmen möglich ist. Zu diesem Zweck wurden im November und Dezember 2018 bei einem Industriepartner zwei unabhängige Pilotstudien im Sinne von Machbarkeitsstudien durchgeführt. In der ersten Studie wurden zwei Videokameras aufgehängt, die gemeinsam eine stereoskopische Erfassung der Umgebung ermöglichten. Auf den Videobildern wurden sodann durch Maschinelles Sehen anwesende Personen detektiert, wobei die Erkennung von Bildveränderungen mittels des Differenzverfahrens zur Anwendung gelangte. Die so erkannten Personen konnten sodann durch Triangulation im Raum verortet werden. Darauf aufbauend wurde eine Heuristik implementiert, welche aufgrund der räumlichen Nähe und deren zeitlichen Veränderung die Interaktion zwischen Personen und Unterbrechung von Arbeitsprozessen feststellte. In der zweiten Untersuchung wurde die bestehende Unterstüzungssoftware zur Selbststeuerung PersonalAnalytics um ein neues Modul erweitert, das den von einem an den Computer angeschlossenen omnidirektionalen Mikrofon aufgezeichneten Ton speicherte und festzustellen versuchte, ob in der Nähe gerade gesprochen wird. Dazu fand ein Software-Paket zur Sprecher-Unterscheidung (Speaker diarisation) Anwendung, das auf einem Algorithmus zur Sprecheridentifikation durch ein Gaußsches Mischungsmodell und Mel-Frequenz-Cepstrum-Koeffizientenbasiert. Die gewonnenen Daten wurden einer Analyse unterzogen und es wurde die Güte der Klassifikation überprüft. Wie sich zeigt, sind beide Verfahren grundsätzlich anwendbar, bedürfen jedoch noch der Verbesserung. Dies trifft insbesondere im Falle der Erkennung der Sprecheraktivität zu, wo eine hohe Anzahl falsch-positiver Ergebnisse festgestellt wurde. Für die weitere Forschung ergeben sich damit verschiedene Erkenntnisse und Herausforderungen. Einerseits können und sollen die eingesetzten Algorithmen verbessert werden und andererseits sollten die verschiedenen Ansätze und Datenquellen miteinander kombiniert werden, um eine höhere Zuverlässigkeit zu erreichen.
PDF File Download
Export BibTeX