Not logged in.

Contribution Details

Type Bachelor's Thesis
Scope Discipline-based scholarship
Title Natural language processing with signal/collect
Organization Unit
Authors
  • Marc Tobler
Supervisors
  • Abraham Bernstein
  • Philip Stutz
  • Coralia-Mihaela Verman
Language
  • English
Institution University of Zurich
Faculty Faculty of Economics, Business Administration and Information Technology
Number of Pages 27
Date 2012
Abstract Text Traditional Natural Language Processing (NLP) focuses on individual tasks, such as Tokenizing, Part of Speech tagging (POS) or Parsing. To acquire final results one would usually combine several of these steps in a sequence, thereby creating a pipeline. In this thesis we suggest a new approach to Natural Language Processing (NLP), using parallel combination instead. We will illustrate our proposal with a Word Sense Disambiguation (WSD) and a Part of Speech (POS) tagger. We start by implementing the PageRank algorithm for WSD and the Viterbi algorithm as a POS-tagger on Signal/Collect - a framework for parallel graph processing. Then we continue by combining the two tasks in a pipeline, using the information gathered from the Part of Speech tagger to increase the performance of WSD. We proceed with our suggestion of a non-sequential combination of the algorithms, combining them into a single algorithm that handles POS tagging and WSD in parallel. With our thesis, we want to contribute with the following two ideas. Firstly, we want to show that graph theory provides a suitable model for solving selected NLP problems. And we want to prove that modeling such graphs in Signal/Collect is a promising approach, due to the framework’s good scaling and its potential for parallelization. Secondly, we want to suggest a different methodology in solving NLP tasks. We are showing a way how to get away from isolated studies of NLP problems and pipelining to a broadened approach. We evaluate our algorithms on the Senseval 3 data, comparing the obtained results to a similar approach introduced by Agirre and Soroa in 2009.
Zusammenfassung Traditionelle Sprachverarbeitung konzentriert sich oftmals auf gesonderte Problemstellungen, wie Tokenisierung, Wortartzuweisung oder Parsing wenn ein Text analysiert werden soll. Um dann an verwendbare Resultate zu gelangen, kettet man die einzelnen Elemente aneinander. In dieser Arbeit schlagen wir einen neuen Ansatz für die automatische Sprachverarbeitung vor, indem wir die einzelnen Arbeitsschritte parallel statt sequentiell kombinieren. Um unseren Vorschlag zu veranschaulichen, wenden wir uns zwei unterschiedlichen Aufgabenstellungen zu: Word Sense Disambiguation und Wortartzuweisung (Part of Speech Tagging). Zu Beginn werden wir den PageRank Algorithmus fü̈r die Word Sense Disambiguation (WSD) und einen Viterbi Algorithmus für implementieren, beide auf Basis von Signal/Collect - einem Framework zur parallelen Verarbeitung von Graphen. Wir fahren fort mit der Kombination der beiden Elemente in einer sequentiellen Anordnung, in der wir uns die Resulate des Part of Speech Taggings zu Nutze machen um die Leistung unseres PageRank Algorithmus zu verbessern. Zum Schluss präsentieren wir unseren neuartigen Ansatz zu einer parallelen Ausführung der Algorithmen, indem wir die beiden Algorithmen zu einem einzigen Prozess verschmelzen, der sowohl eine Word Sense Disambiguation als auch Part of Speech Tagging durchführt. Mit dieser Arbeit möchten wir zwei Ideen in die Thematik einbringen. Erstens möchten wir zeigen, dass Graphen ein passendes Model für die Lösung ausgewählter Probleme der Sprachverarbeitung sind. Weiter möchten wir darlegen, dass das Signal/Collect Framework dank seiner Skalierbarkeit und seines Potenzials zur Parallelisierung von Prozessen eine vielversprechende Möglichkeit zur Umsetzung genannter Lösung bietet. Zweitens schlagen wir eine neue Methodik zur Anwendung in der Sprachverarbeitung vor. Wir zeigen hierfür einen Weg auf, der es ermöglicht, Aufgaben in einem umfassendereren Ansatz anzugehen. Wir evaluieren unsere Resulate mithilfe des Datensatzes aus dem Senseval 3 Wettbewerb, und vergleichen unsere Resultate mit den von Agirre & Soroa 2009 präsentierten Daten.
PDF File Download
Export BibTeX