Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Unsupervised Text Clustering of Dental Patient Data
Organization Unit
Authors
  • Kevin Steijn
Supervisors
  • Gerold Schneider
  • Martin Volk
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2022
Abstract Text The aim of this paper is to discover a method of finding semantically similar clusters from a text dataset in an unsupervised manner. An existing semantic text similarity benchmark will be used to substantiate the use of embeddings for this task. The embeddings will represent the entire text input using state of the art sentence transformers. These transformers will be combined with contrastive learning to further enhance the embeddings using state of the art research. By using transfer learning during this process this work can utilize the pre-trained models of previous research and retain their performance. These techniques will be applied to dental patient data. Resulting in visualizations that allow for exploration of the proposed clusters.
Zusammenfassung Ziel dieser Arbeit ist es, eine Methode zu entwickeln, um semantisch ähnliche Cluster aus einem Textdatensatz auf unüberwachte Weise zu finden. Ein bestehender semantischer Textähnlichkeits-Benchmark wird verwendet, um die Verwendung von Einbettungen für diese Aufgabe zu motivieren. Die Einbettungen repräsentieren die gesamte Texteingabe unter Verwendung modernster Satztransformatoren. Diese Transformatoren werden mit kontrastivem Lernen kombiniert, um die Einbettungen auf der Grundlage des aktuellen Stands der Forschung weiter zu verbessern. Durch den Einsatz von Transfer-Lernen während dieses Prozesses kann diese Arbeit die vortrainierten Modelle aus früheren Forschungen nutzen und deren Leistung beibehalten. Diese Techniken werden auf zahnmedizinische Patientendaten angewandt. Das Ergebnis sind Visualisierungen, die eine Erkundung der vorgeschlagenen Cluster ermöglichen.
PDF File Download
Export BibTeX