Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Machine Translation between Spoken Languages and Signed Languages in Written Form
Organization Unit
Authors
  • Zifan Jiang
Supervisors
  • Martin Volk
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2022
Abstract Text This thesis presents work on novel machine translation (MT) systems between spoken languages and signed languages, represented in a sign language writing notation system, i.e., SignWriting. It seeks to address the lack of support for signed languages in current MT systems and research. Our research is based on the SignBank dataset, which contains pairs of spoken language text and signed language content in the Formal SignWriting (FSW) format. Novel methods are introduced to parse, factorize, decode, and evaluate FSW. Preprocessed data is then used in three major sets of experiments/models, leveraging a factored Transformer neural machine translation architecture. A bilingual setup translating from American Sign Language to American English achieves over 30 BLEU score, while two multilingual ones translating both directions between spoken languages and signed languages achieve over 20 BLEU score. We find that common MT techniques used to improve spoken language translation have a similar effect on the performance of sign language translation. We thus support the claim of including signed languages in natural language processing (NLP) research.
Zusammenfassung In dieser Arbeit werden neuartige maschinelle Übersetzungssysteme (MÜ) zwischen gesprochenen Sprachen und Gebärdensprachen vorgestellt. Die Gebärdensprache ist dabei in SignWriting dargestellt, einem Schriftsystem für Gebärdensprachen. Die Arbeit zielt darauf ab, die fehlende Unterstützung für Gebärdensprachen in aktuellen MÜ-Systemen zu beheben und auch zu mehr Forschung in diese Richtung zu animieren. Unsere Forschung basiert auf dem SignBank-Datensatz, der Paare von gesprochenem Text und Gebärdensprachinhalten im Formal SignWriting-Format (FSW) enthält. Es werden neuartige Methoden zum parsen, faktorisieren, generieren und evaluieren von FSW vorgestellt. Die vorverarbeiteten Daten werden dann in drei Haupt-Experimenten verwendet, wobei eine faktorisierte Transformer-Architektur für maschinelle Übersetzung zum Einsatz kommt. Ein bilinguales System, das von der amerikanischen Gebärdensprache ins amerikanische Englisch übersetzt, erreicht über 30 BLEU, während zwei mehrsprachige Systeme, die in beide Richtungen zwischen gesprochenen Sprachen und Gebärdensprachen übersetzen, über 20 BLEU erreichen. Wir stellen fest, dass gängige MÜ-Techniken, die zur Verbesserung der Übersetzung gesprochener Sprachen eingesetzt werden, eine ähnliche Wirkung auf die Qualität der Gebärdensprachübersetzung haben. Wir unterstützen daher die Forderung, Gebärdensprachen in die Forschung zur Verarbeitung natürlicher Sprache (NLP) einzubeziehen.
PDF File Download
Export BibTeX