Not logged in.

Contribution Details

Type Bachelor's Thesis
Scope Discipline-based scholarship
Title RadEval: A radiology-aware model-based evaluation metric for report generation
Organization Unit
Authors
  • Amos Calamida
Supervisors
  • Martin Volk
  • Farhad Nooralahzadeh
  • Michael Krauthammer
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2023
Abstract Text In our work, we propose a novel automated radiology-specific evaluation metric that can be used for evaluating the performance of machine-generated radiology reports. We utilize the existing successful COMET metric architecture, which we adapt and optimize for use in the radiology domain. Using this architecture, we train and publish four medically-oriented model checkpoints using various combinations of encoders and corpora of radiology reports. One of the model checkpoints is trained using RadGraph, a radiology knowledge graph, and the thereof-derived RadGraph F1 and RadCliQ scores are integrated into our contributed parallel corpora to enhance their quality. Our results show that the developed metric exhibits a moderate to high correlation with established metrics such as BERTscore, BLEU, and S_emb score, indicating its potential effectiveness as a radiology-specific evaluation metric.
Zusammenfassung In unserer Arbeit präsentieren wir eine neuartige, automatisierte Radiologie-spezifische Bewertungsmetrik, die zur Evaluation von maschinell generierten Radiologieberichten verwendet werden kann. Wir nutzen die bestehende, erfolgreiche COMET Metrik-Architektur, welche wir für die Anwendung in der Radiologie anpassen und optimieren. Mit dieser Architektur trainieren und veröffentlichen wir vier medizinisch ausgerichtete Modell-Checkpoints, welche unter Verwendung verschiedener Kombinationen von Encodern und Korpora von Radiologieberichten erstellt werden. Einer der Modell-Checkpoints wird mithilfe von RadGraph, einem Radiologie Knowledge-Graph, trainiert, und die von RadGraph abgeleiteten RadGraph F1- und RadCliQ-Scores werden in unsere Parallel-Korpora integriert, um deren Qualität zu verbessern. Unsere Auswertung der Ergebnisse zeigen, dass die entwickelte Metrik eine mittlere bis hohe Korrelation mit bereits etablierten Metriken wie BERTscore, BLEU und S_emb score aufweist, was auf ihre potenzielle Wirksamkeit als radiologiespezifische Bewertungsmetrik hinweist.
PDF File Download
Export BibTeX