Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Machine Learning Approach for Chemical Reactions Digitalization
Organization Unit
Authors
  • Mark Martori Lopez
Supervisors
  • Daniel Probst
  • Davide Scaramuzza
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2022
Abstract Text Automatic recognition of chemical literature facilitates expanding new areas of research, boosting the overall and detailed chemistry-related knowledge. Chemical formulas and tables, widely used in chemistry literature, can be easily extracted. Recently, machine-learning methods have successfully been applied to obtain textual representations of structure depictions of molecules. However, the successful extraction of machine-readable representation of chemical reactions from graphical depictions has not yet been demonstrated. Here we present a twofold approach based on a visual recognition system to detect high-interest elements of depictions of chemical reactions and apply various digitalisation techniques to translate the detections into machine-readable representations. We provide a Resnet50 backbone and an encoder-decoder transformer (DETR) to locate and classify graphical elements of chemical reactions such as molecules, arrows, textual information, and symbols. Given the scarcity of annotated chemical reaction depictions, we introduced a synthetic training data set with sufficient intra-variability following real-world depictions distribution. Detected elements are then combined and brought into a machine-readable format using existing tools. The open-source library Molvec translates detected depictions of molecules into machine-readable molecular representations. An Optical Character Recognition model is trained with chemical-related data to extract valuable textual information. This project aims to provide digital tools that aid in building on-demand data sets for areas with insufficient freely available chemical data.
Zusammenfassung Die automatisierte Erkennung von chemischer Fachliteratur erschafft neue Forschungsgebiete und ermöglicht einen effizienteren Wissensaustausch. Chemische Formeln und Tabellen, die man oft in Fachliteratur findet, können einfach erkannt und verarbeitet werden. In jüngster Zeit wurden Methoden des maschinellen Lernens erfolgreich angewandt, um textuelle Darstellungen aus Molekülstrukturen zu erhalten. Dennoch ist das Auslesen von chemischen Reaktionen noch nicht gelungen. In diesem Paper möchten wir einen zweiteiligen Ansatz vorstellen, der auf einem visuellen Erkennungssystem basiert, um relevante Elemente der chemischen Reaktionen zu finden. Anschließend werden diese Ergebnisse in maschinell digitalisierte Darstellungen übersetzt. Wir stellen ein Resnet50-Backbone und einen Encoder-Decoder-Transformer (DETR) bereit, um grafische Elemente chemischer Reaktionen wie Moleküle, Pfeile, Textinformationen und Symbole zu lokalisieren und zu klassifizieren. Angesichts des Mangels an annotierten chemischen Reaktionsdarstellungen haben wir einen synthetischen Trainingsdatensatz mit ausreichender Intravariabilität eingeführt, der sich der Verteilung realer Darstellungen annähert. Erkannte Elemente werden dann kombiniert und mit Hilfe vorhandenen Verfahren in ein maschinenlesbares Format umgewandelt. Die Open-Source-Bibliothek Molvec übersetzt erkannte Moleküldarstellungen in maschinenlesbare molekulare Abbildungen. Ein optisches Zeichenerkennungsmodell wird mit chemiebezogenen Daten von uns trainiert, um wertvolle Textinformationen zu extrahieren. Dieses Projekt hat zum Ziel, digitale Anwendungen bereitzustellen, die bei der Erstellung von Datensätzen auf Abruf für Bereiche mit unzureichenden frei verfügbaren chemischen Daten helfen sollen.
PDF File Download
Export BibTeX