Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Applying NMT-Adapt to Tulu
Organization Unit
Authors
  • Manu Narayanan
Supervisors
  • Martin Volk
  • Noëmi Aepli
  • Chantal Amrhein
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2023
Abstract Text Today, most of the research in neural machine translation (NMT) focuses on 20 of the world’s 7,000 languages. The scarcity of training data is a substantial bottleneck to research in most of the remaining languages. Tulu is one such low-resource language, spoken by fewer than two million people in the southern part of India. To address this limitation, this thesis attempts to develop an NMT model that can translate between English and Tulu. The technique used here is inspired by a method called NMT-Adapt, which adapts a translation model trained on a related high-resource language to translate the low-resource language. This is done using only monolingual data in the low-resource language, and a combination of iterative methods including ‘back-translation’ and ‘denoising autoencoding’. The related high-resource language used in this work is another south Indian language called Kannada, which has abundant training data and is closely related to Tulu. Monolingual Tulu data scraped from articles on the Tulu language Wikipedia was used in combination with an English-Kannada NMT model for achieving the task. This work also introduces a benchmark dataset for Tulu consisting of 1,300 sentences. The results demonstrate that the model is able to translate Tulu to English reasonably well. Although English to Tulu translation needs improvement, there is no other translation model for translating from English to Tulu for comparison.
Zusammenfassung Heute konzentriert sich ein Grossteil der Forschung im Bereich der neuronalen maschinellen Übersetzung (NMT) auf 20 der 7,000 Sprachen weltweit. Der Mangel an Trainingsdaten stellt eine erhebliche Engstelle für die Forschung in den meisten der übrigen Sprachen dar. Tulu ist eine solche ressourcenarme Sprache, die von weniger als zwei Millionen Menschen im südlichen Teil Indiens gesprochen wird. Um diese Einschränkung zu bewältigen, versucht diese Arbeit, ein NMT-Modell zu entwickeln, das zwischen Englisch und Tulu übersetzen kann. Die hier verwendete Technik ist inspiriert von einer Methode namens NMT-Adapt, die ein Übersetzungsmodell, das auf einer verwandten hochsprachigen Sprache trainiert wurde, anpasst, um die niedrigsprachige Sprache zu übersetzen. Dies wird unter Verwendung ausschliesslich monolingualer Daten in der niedrigsprachigen Sprache und einer Kombination von iterativen Methoden wie ’Back-translation’ und ’Denoising Autoencoding’ durchgeführt. Die verwandte hochsprachige Sprache, die in dieser Arbeit verwendet wurde, ist eine weitere südindische Sprache namens Kannada, die über reichlich Trainingsdaten verfügt und eng mit Tulu verwandt ist. Monolinguale Tulu-Daten, die aus Artikeln der Tulu-Sprach-Wikipedia extrahiert wurden, wurden in Kombination mit einem Englisch-Kannada-NMT-Modell für die Aufgabe verwendet. Diese Arbeit führt auch einen Benchmark-Datensatz für Tulu ein, der aus 1,300 Sätzen besteht. Die Ergebnisse zeigen, dass das Modell Tulu recht gut ins Englische übersetzen kann. Obwohl die Übersetzung von Englisch nach Tulu noch Verbesserungen benötigt, existiert kein anderes Übersetzungsmodell für den Vergleich von Übersetzungen von Englisch nach Tulu.
PDF File Download
Export BibTeX