Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Voice isolation, speech transcription and speaker re-identi cation in video
Organization Unit
Authors
  • Patrick Düggelin
Supervisors
  • Luca Rossetto
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2021
Abstract Text Speech is a salient information channel in recorded media, usually containing relevant semantic information complementing the visual signal. In a video retrieval setting, the speech signal can be transcribed automatically to enable spoken document retrieval by text query. Even though not the only factor, automatic transcription performance is the most important for the quality of such a retrieval system. In this work, we first assess the transcription quality of current state-of-the-art ASR systems and quantify the errors such systems make on a realistic dataset. We then examine if audio-visual speech enhancement methods can be used to improve the transcription quality. Based on these two preliminary studies' findings, we build three spoken document retrieval pipelines to index videos by what was said. We evaluate these systems on a set of manually captioned YouTube videos and find that speech enhancement slightly increases retrieval performance.
Zusammenfassung Videos enthalten oftmals gesprochene Sprache mit zusatzlichen semantischen Informationen die das visuelle Signal ergänzen. Im Kontext von Video-Retrievalsystemen kann das Sprachsignal automatisch transkribiert werden, um die Suche nach gesprochenen Inhalten per Textabfrage zu ermöglichen. Die Qualitat der automatischen Transkription ist nicht der einizge, aber einer der wichtigsten Faktoren für die Qualität eines solchen Retrievalsystems. In dieser Arbeit bewerten wir zunächst die Transkriptionsqualitat aktueller State-of-the-Art automatischer Spracherkennungssysteme und quanti zieren die Fehler, die solche Systeme auf einem realistischen Datensatz machen. Anschliessend untersuchen wir, ob audio-visuelle Ansätze zur Unterdrückung von Hintergrundgeräuschen eingesetzt werden können, um die Transkriptionsqualitat zu verbessern. Basierend auf den Ergebnissen dieser beiden Vorstudien erstellen wir drei Pipelines fur die Suche nach gesprochenen Inhalten in Videos. Wir evaluieren diese Systeme auf von Hand transkribierten YouTube-Videos und stellen fest, dass die Unterdrückung von Hintergrundgeräuschen die Retrievalleistung leicht erhöht.
PDF File Download
Export BibTeX