Type Bachelor's Thesis
Scope Discipline-based scholarship
Title Government as a platform: an automated media analysis of crisis-related publications. The case of the Russian invasion in Ukraine.
Organization Unit
  • Witold Rozek
  • Kilian Sprenkamp
  • Gerhard Schwabe
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2023
Abstract Text Media analysis reflects the most important facts about public opinion and the actors involved in the most current topics. It is beneficial for the government and the public administration to identify the information gaps in the public media to intervene and assist in specific areas concerning the reception and acclimatization process of Ukrainian refugees in Switzerland. This study aims to explore the potential of combining the three Natural Language Processing (NLP) techniques, Named Entity Recognition (NER), Sentiment Analysis (SA), and Topic Modeling (TM), with Machine Learning (ML) models to facilitate decision-making by the authorities. The data used for this study consist of German- and English-speaking articles retrieved from Swiss news media related to the Russian-Ukrainian war. The data includes articles between February 2022 and January 2023. The research approach is split into three main parts, data exploration, the modeling phase, and the evaluation of the models. During data exploration, the data was preprocessed and filtered in relation to Ukrainian refugees. In the modeling phase, the used ML models were introduced, fine-tuned, and applied to the data, leading to the final results. Using the three abovementioned NLP techniques, the most common topics, the article's sentiment over time, and the most common entities in the data could be identified. SA reveals a change of 5% from positive to negative articles regarding the total sum. TM presents the most common topics related to the Ukrainian refugee crisis in Switzerland. NER uncovers the most affected actors, locations, and organizations impacted by the crisis. In the evaluation phase, the model's performances were analyzed, which resulted in a remarkable accuracy score of 96.5% for the NER model, an average accuracy score of 62.5% for the SA model, and a coherence score of 0.65 for BERTopic, the TM model. To conclude, the research shows the potential of using ML-based NLP techniques on news media data to extract beneficial facts from a huge amount of data regarding the case of the Russian-Ukrainian war.
Zusammenfassung Die Medienanalyse spiegelt die wichtigsten Fakten über die öffentliche Meinung und die an den aktuellsten Themen beteiligten Akteure wider. Es ist für die Regierung und die öffentliche Verwaltung von Vorteil, die Informationslücken in den öffentlichen Medien zu identifizieren, um in bestimmten Bereichen des Aufnahme- und Eingewöhnungsprozesses ukrainischer Flüchtlinge in der Schweiz zu intervenieren und zu helfen. Ziel dieser Studie ist es, das Potenzial der Kombination der drei Natural Language Processing (NLP) Techniken Named Entity Recognition (NER), Sentiment Analysis (SA) und Topic Modeling (TM) mit Machine Learning (ML) Modellen zu untersuchen, um die Entscheidungsfindung der Behörden zu erleichtern. Die für diese Studie verwendeten Daten bestehen aus deutsch- und englischsprachigen Artikeln aus Schweizer Nachrichtenmedien, die sich auf den russisch-ukrainischen Krieg beziehen. Die Daten umfassen Artikel zwischen Februar 2022 und Januar 2023. Der Forschungsansatz gliedert sich in drei Hauptteile, die Datenexploration, die Modellierungsphase und die Auswertung der Modelle. Während der Datenexploration wurden die Daten vorverarbeitet und in Bezug auf die ukrainischen Flüchtlinge gefiltert. In der Modellierungsphase wurden die verwendeten ML-Modelle eingeführt, feinabgestimmt und auf die Daten angewendet, was zu den endgültigen Ergebnissen führte. Mithilfe der drei oben genannten NLP-Techniken konnten die häufigsten Themen, die Stimmung der Artikel im Laufe der Zeit und die häufigsten Entitäten in den Daten ermittelt werden. SA zeigt eine Veränderung von 5% von positiven zu negativen Artikeln in Bezug auf die Gesamtsumme. TM präsentiert die häufigsten Themen im Zusammenhang mit der ukrainischen Flüchtlingskrise in der Schweiz. NER deckt die am meisten betroffenen Akteure, Orte und Organisationen auf, die von der Krise betroffen sind. In der Evaluierungsphase wurden die Leistungen der Modelle analysiert, was zu einem bemerkenswerten Genauigkeitswert von 96,5% für das NER Modell, einem mäßigen Genauigkeitswert von 62,5% für das SA Modell und einem Kohärenzwert von 0,65 für BERTopic, das TM Modell, führte.
