Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Swiss German Speech-to-Text: Test and Improve the Performance of Models on Spontaneous Speech
Organization Unit
Authors
  • Karin Thommen
Supervisors
  • Tanja Samardzic
  • Martin Volk
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2023
Abstract Text Translators, voice recordings, and voice control are often pre-installed on mobile devices to make everyday life easier. However, Swiss German speakers must use Standard German or English when using speech recognition systems. The latest research shows that most of these systems are trained and evaluated on prepared speech. It remains an open question how these speech-to-text systems behave if they are applied to spontaneous speech, which consists of incomplete sentences, hesitations, and fillers. This can be summarised in the following research question: How does the performance of pre-trained speech models drop when fine-tuning on spontaneous speech compared to fine-tuning on prepared speech? Differences in speech styles lead to the assumption that performance drops when it comes to spontaneous speech. To assess the differences between prepared and spontaneous speech, two state-of-the-art pre-trained multilingual models were fine-tuned on the corresponding data. One is XLS-R developed by Facebook and proposed in 2022. Another model is Whisper by OpenAI, proposed in 2023. Thus, one main challenge is to make the models that are trained on two distinct speech styles comparable. Surprisingly, the results of both models disprove the hypothesis, as they perform better on spontaneous speech. Multiple improvement techniques were evaluated on their impact on the models. On the one hand, increasing the size of the data set significantly increases performance. However, one main issue in automatically transcribing Swiss German is finding the correct word boundaries. As many errors occur at the character level, it remains open which evaluation metric is the most appropriate for spontaneous speech and a low-resource language like Swiss German.
Zusammenfassung Übersetzungsprogramme, Sprachsteuerung und Spracherkennung sind oft auf mobilen Geräten vorinstalliert, um den Alltag zu erleichtern. Diese Sprachsysteme werden laufend in verschiedenen Sprachen entwickelt, dennoch müssen Deutschschweizerinnen und Deutschschweizer in Hochdeutsch oder Englisch mit diesen Sprachsystemen kommunizieren. Die neueste Forschung zeigt, dass die meisten dieser Systeme auf sorgfältig vorbereitete Sätze trainiert wurden. Entsprechend bleibt offen, wie sich ein Modell verhält, wenn es auf spontane Diskussionen und Gespräche angewendet wird, welche sich durch Füllwörter und unvollständige Sätze auszeichnen. Dies kann in der folgenden Forschungsfrage zusammengefasst werden: Wie verändert sich die Leistung eines Sprachmodells, das auf spontane Sprache trainiert wurde im Vergleich zu einem Modell, das auf vorbereitete Sprache trainiert wurde? Der Unterschied in den beiden Sprachstilen lässt annehmen, dass die Qualität eines Modells sinkt, wenn es auf spontane Sprache angewendet wird. Um den Leistungsunterschied zwischen vorbereiteter und spontaner Sprache zu zeigen, wurden zwei Modelle aus der aktuellen Forschung als Basis verwendet und auf die beiden Sprachstile trainiert. Das Modell XLS-R wurde von Facebook entwickelt und im Jahr 2022 vorgestellt. Ein weiteres Modell ist Whisper von OpenAI aus dem Jahr 2023. Eine Herausforderung hierbei ist es, die Modelle für die beiden unterschiedlichen Sprachstile vergleichbar zu machen. Überraschenderweise widerlegen die Ergebnisse beider Modelle die Hypothese, da sie bei spontaner Sprache besser abschneiden. Mehrere Verbesserungsmethoden wurden hinsichtlich ihrer Auswirkungen auf die Modelle untersucht. Es hat sich ergeben, dass die Vergrößerung des Datensatzes die Leistung erheblich steigert. Ein Hauptproblem bei der automatischen Transkription von Schweizerdeutsch ist jedoch das Finden der richtigen Wortgrenzen. Da viele Fehler auf der Zeichenebene auftreten, bleibt offen, welche Bewertungsmetrik für spontane Sprache und eine ressourcenarme Sprache wie Schweizerdeutsch am besten geeignet ist.
PDF File Download
Export BibTeX