Not logged in.

Quick Search - Contribution

Contribution Details

Type	Master's Thesis
Scope	Discipline-based scholarship
Title	Voice isolation, speech transcription and speaker re-identication in video
Organization Unit	Dynamic and Distributed Information Systems (Abraham Bernstein)
Authors	Patrick Düggelin
Supervisors	Luca Rossetto
Language	English
Institution	University of Zurich
Faculty	Faculty of Business, Economics and Informatics
Date	2021
Abstract Text	Speech is a salient information channel in recorded media, usually containing relevant semantic information complementing the visual signal. In a video retrieval setting, the speech signal can be transcribed automatically to enable spoken document retrieval by text query. Even though not the only factor, automatic transcription performance is the most important for the quality of such a retrieval system. In this work, we first assess the transcription quality of current state-of-the-art ASR systems and quantify the errors such systems make on a realistic dataset. We then examine if audio-visual speech enhancement methods can be used to improve the transcription quality. Based on these two preliminary studies' findings, we build three spoken document retrieval pipelines to index videos by what was said. We evaluate these systems on a set of manually captioned YouTube videos and find that speech enhancement slightly increases retrieval performance.
Zusammenfassung	Videos enthalten oftmals gesprochene Sprache mit zusatzlichen semantischen Informationen die das visuelle Signal ergänzen. Im Kontext von Video-Retrievalsystemen kann das Sprachsignal automatisch transkribiert werden, um die Suche nach gesprochenen Inhalten per Textabfrage zu ermöglichen. Die Qualitat der automatischen Transkription ist nicht der einizge, aber einer der wichtigsten Faktoren für die Qualität eines solchen Retrievalsystems. In dieser Arbeit bewerten wir zunächst die Transkriptionsqualitat aktueller State-of-the-Art automatischer Spracherkennungssysteme und quantizieren die Fehler, die solche Systeme auf einem realistischen Datensatz machen. Anschliessend untersuchen wir, ob audio-visuelle Ansätze zur Unterdrückung von Hintergrundgeräuschen eingesetzt werden können, um die Transkriptionsqualitat zu verbessern. Basierend auf den Ergebnissen dieser beiden Vorstudien erstellen wir drei Pipelines fur die Suche nach gesprochenen Inhalten in Videos. Wir evaluieren diese Systeme auf von Hand transkribierten YouTube-Videos und stellen fest, dass die Unterdrückung von Hintergrundgeräuschen die Retrievalleistung leicht erhöht.
PDF File	Download
Export	BibTeX