Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Multimodal Clinical NLP in Radiology; Visual Question Generation task
Organization Unit
Authors
  • Ledri Thaqi
Supervisors
  • Martin Volk
  • Michael Krauthammer
  • Farhad Nooralahzadeh
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2023
Abstract Text With the recent emergence of Vision Language models in the cross-domains of Computer Vision and Natural Language Processing, novel capabilities are being presented to a wide variety of tasks in different domains. Tasks such as Visual Question Answering and Visual Question generation are increasingly being studied in both the general domain and medical domain. However, such Vision Language tasks are still in the early adoption phases in the medical domain. Thus, recent studies are starting to focus more on the Visual Question Answering and Visual Question Generation tasks in the radiology domain, mainly due to the potential benefits for the radiology domain while utilizing the capabilities of Vision Language models. The main focus of this thesis is the Visual Question Generation task in the radiology domain, which we aim to explore how it can be implemented and what multimodal considerations are required. We investigate the differences and capabilities of model architectures by first implementing a baseline model with a CNN-RNN architecture and then to our knowledge the first Transformer-based model architecture focused on the VQG task in radiology. Lastly, we also contribute to future work involved in this domain by providing comprehensive reasoning of model architectures with respect to the textual and visual data modalities and their implications on performance. We show that Visual Question Generation of Radiology images is a complex task with many factors influencing the performance of the model, ranging from the quality and size of the dataset to model architecture decisions.
Zusammenfassung Mit dem jüngsten Aufkommen von Bildsprachmodellen in den Querschnittsbereichen maschinelles Sehen (Computer Vision) und Verarbeitung natürlicher Sprache (Natural Language Processing) werden neue Fähigkeiten für eine Vielzahl von Aufgaben in unterschiedlichen Bereichen eingeführt. Aufgaben wie die Beantwortung visueller Fragen und die Generierung visueller Fragen werden sowohl im allgemeinen als auch im medizinischen Bereich zunehmend untersucht. Allerdings befinden sich solche Vision Language-Aufgaben im medizinischen Bereich noch im Anfangsstadium. Daher haben sich die jüngsten Studien mehr auf Aufgaben zur Beantwortung visueller Fragen und zur Generierung visueller Fragen im Bereich der Radiologie konzentriert. Diese Aufmerksamkeit ist vor allem auf die potentiellen Vorteile für die Radiologie zurückzuführen, die sich aus der Nutzung der Fähigkeiten von Vision Language-Modellen ergeben. Das Hauptaugenmerk dieser Arbeit liegt auf der Aufgabe der visuellen Fragengenerierung in der Radiologie. Darüber hinaus wird untersucht, wie die VQG-Aufgabe in diesem Bereich implementiert werden kann. Wir untersuchen die Unterschiede und Fähigkeiten verschiedener Modellarchitekturen, indem wir zunächst ein Basismodell mit einer CNN-RNN-Architektur und dann die unseres Wissens erste Transformator-basierte Modellarchitektur für die VQG-Aufgabe in der Radiologie implementieren. Schließlich leisten wir einen Beitrag zu zukünftigen Arbeiten auf diesem Gebiet, indem wir umfassende Überlegungen zu Modellarchitekturen in Bezug auf textuelle und visuelle Datenmodalitäten und deren Auswirkungen auf die Leistung anstellen. Wir zeigen, dass die Generierung visueller Fragen aus radiologischen Bildern eine komplexe Aufgabe ist, bei der viele Faktoren die Leistung des Modells beeinflussen, angefangen von der Qualität und Größe des Datensatzes bis hin zu Entscheidungen über die Modellarchitektur.
PDF File Download
Export BibTeX