Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Classification of Symbols handwritten by Children
Organization Unit
Authors
  • Adrian Lars Benjamin Iten
Supervisors
  • Manuel Günther
  • Bernd Gärtner
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2022
Abstract Text Classification of handwritten symbols like digits or letters is well-studied. This master thesis focuses on the novel domain of Kinderlabor computer science exercises. It contributes a dataset of symbols handwritten by children in the corresponding domain and evaluates different classification models. This thesis is part of a larger project which aims to implement an automated correction process for those exercises using existing localization and correction algorithms in combination with a symbol classification model developed in this thesis, which classifies each symbol independently. The dataset is collected using different types of exercise sheets, of which the data collected from productive exercise sheets have a significant drawback of lacking or even entirely missing some symbols. To overcome this limitation, a very time-efficient exercise sheet that contains all symbols is contributed. This thesis starts by inspecting the data, where different characteristics of the handwritten symbols and the prevalence of certain symbols are studied. Then, three different data splits are defined, including a data split to assess performance in the productive application scenario, where the model has to classify symbols from new school classes. Two important characteristics of the dataset are the label imbalance and that the dataset contains a certain amount of unknown symbols, making the classification problem an open set classification problem. In an open set classification problem, a classification model must not only correctly classify a set of known symbols, but also reject unknown symbols. Two types of experiments are then performed on the dataset: First, baseline models for correctly classifying all known symbols, including empty fields, are created that are not explicitly trained to reject unknown symbols. Subsequent experiments are performed to evaluate the ability of the models to reject unknown symbols while maintaining good performance on the prediction of known symbols. As existing work lacks an open set evaluation metric for imbalanced datasets, an adaptation to the existing open set classification rate curve is contributed and used throughout the experiments.
Zusammenfassung Die Klassifizierung handgeschriebener Symbole wie Zahlen oder Buchstaben ist gut erforscht. Diese Masterarbeit beschäftigt sich mit Programmieraufgaben im Rahmen der Kinderlabor Organisation. Diese Arbeit trägt einen neuen Datensatz bei, welcher handgeschriebene Symbole von Kindern im Rahmen dieser Aufgaben enthält und evaluiert verschiedene Klassifizierungsmodelle. Sie ist Teil eines übergeordneten Projektes mit dem Ziel, einen automatischen Korrekturprozess für solche Aufgaben zu implementieren auf Basis von existierenden Ortungs- und Korrekturalgorithmen und einem im Rahmen dieser Masterarbeit entwickelten Klassifizierungsmodell, welches jedes Symbol unabhängig klassifiziert. Der Datensatz wird mithilfe von verschiedenen Typen von Arbeitsblättern gesammelt, wobei die Daten der produktiven Arbeitsblätter den Nachteil haben, dass gewisse Symbole nur sehr selten bis gar nicht vorkommen. Um diese Knappheit zu überwinden, trägt diese Arbeit ein zeiteffizientes Arbeitsblatt zur Datensammlung bei, welches alle Symbole enthält. Die Masterarbeit analysiert zuerst den Datensatz, wo verschiedene Aspekte der handgeschriebenen Symbole und deren Häufigkeit untersucht werden. Es werden drei verschiedene Datentrennungen definiert, von welchen eine genutzt werden kann, um die Genauigkeit in der produktiven Benutzung durch neue Schulklassen zu evaluieren. Zwei wichtige Charakteristiken des Datensatzes sind die ungleiche Häufigkeit der Symbole und das Auftreten von unbekannten Symbolen, was das Klassifizierungsproblem zu einem Open Set Klassifizierungsproblem macht. In einem Open Set Klassifizierungsproblem muss ein Modell nicht nur bekannte Symbole richtig klassifizieren, sondern auch unbekannte Symbole zurückweisen. Im Anschluss werden zwei Arten von Experimenten durchgeführt: In einem ersten Schritt werden verschiedene Referenzmodelle für die korrekte Klassifizierung bekannter Symbole, inklusive leeren Feldern, verglichen. Diese Modelle werden nicht explizit darauf trainiert, unbekannte Symbole zurückzuweisen. In einem zweiten Schritt werden Modelle auch explizit darauf trainiert, unbekannte Symbole zurückzuweisen, währenddem sie eine hohe Genauigkeit auf bekannten Symbolen halten sollen. Da in bestehenden Werken keine angemessene Open Set Bewertungsmetrik für unausgeglichene Datensätze existiert, wird in dieser Masterarbeit eine Anpassung der Open Set Klassifizierungsratenkurve beigetragen und in den Experimenten benutzt.
PDF File Download
Export BibTeX