Not logged in.

Contribution Details

Type Bachelor's Thesis
Scope Discipline-based scholarship
Title An approach to automatically gather funding information about scientific research projects from published papers
Organization Unit
  • Dimitri Kohler
  • Achim Schneider
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2016
Abstract Text With many parties involved in science, scientific results can be influenced by personal interests. Especially with more and more companies investing in universities and scientific research, the interests of funding entities start to grow in importance. Because of this it becomes easier for companies to follow their commercial interests by influencing scientific results. This can lead to biased results, which can harm the trust the public has in science. To prevent that from happening, transparency about the nature of funding is important. In this thesis it is shown where and in what form funding data can be found and methods to extracting funding information from a paper is proposed and discussed. The two developed approaches use regular expressions and named entity recognition respectively to extract funding entities. Already with a small amount of training data the named entity recognition algorithm performed better than the developed regular expression. The extracted and tagged results are saved in an XML file to be used in further computations.
Zusammenfassung Teure Forschungsprojekte brauchen Investoren. Diese Investoren verfolgen persönliche Interessen mit ihrer Investition. Dadurch kann es vorkommen, dass Forschungsergebnisse von diesen Investoren beeinflusst werden um ihren Zielen näher zu kommen. Vor allem wenn diese Ziele kommerzieller Natur sind wird es oft schwer diese mit objektiven und unabhängigen Forschungsergebnissen zu vereinen. Bei der Finanzierung von Forschungsprojekten ist es deshalb wichtig Transparenz zu schaffen. In dieser Arbeit wird aufgezeigt in welcher Form Finanzierungsinformationen gefunden werden können und zwei Methoden wie diese Informationen aus einem wissenschaftlichen Paper gesammelt werden können, werden entwickelt und diskutiert. Die beiden Methoden benutzen Reguläre Ausdrücke und Named Entity Recognition um die Informationen zu erkennen und zu extrahieren. Bereits mit einem kleinen Trainingssatz produziert der Named Entity Recognition Algorithmus bessere Resultate als der entwickelte Reguläre Ausdruck. Die gesammelten und kategorisierten Resultate werden in eine XML Datei geschrieben, was eine einfache Weiterverarbeitung ermöglicht.
PDF File Download
Export BibTeX