Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Sentiment Analysis for Twitter: Supervised Machine Learning
Organization Unit
Authors
  • Yuezhu Zhang
Supervisors
  • Martin Volk
  • Manfred Klenner
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2021
Abstract Text Currently on many social media platforms, offensive language is a severe problem which may cause legal issues. Sentiment Analysis mainly focuses on text analysis, therefore it is an important tool to solve this problem. However, merely differentiating the posts between positive and negative opinions is insufficient: nowadays, many social media platforms are requested to remove offensive content and to monitor discussions on their websites. To build an automated classification system and to remove posts on time is highly necessary. In this thesis, we present the process of building a fine-tuned model based on the BERT pre-trained language model for classifying offensive language from Twitter. This approach takes advantage of the language models that had been pre-trained in an unsupervised manner with a large corpus. We compare our model with other approaches from GermEval 2018 and GermEval 2019 for offensive language classification tasks. The final evaluation shows that our model has better performance over others. Keywords: Hate speech, Social media, Sentiment analysis, NLP, Neural Network, BERT, Pre-trained Language Model.
Zusammenfassung In vielen sozialen Medien stellt beleidigende Sprache derzeit ein schwerwiegendes Problem dar, das zu rechtlichen Problemen führen kann. Sentiment Analysis konzentriert sich hauptsächlich auf die Textanalyse und ist daher ein wichtigesWerkzeug zur Lösung dieses Problems. Es reicht jedoch nicht aus, die Beiträge nur hinsichtlich positiver und negativer Meinungen zu unterscheiden. Heutzutage werden viele Social Media Plattformen aufgefordert, anstößige Inhalte zu entfernen und die Diskussionen auf ihren Websites zu überwachen. Der Aufbau eines automatisierten Klassifizierungssystems und die rechtzeitige Entfernung von Beiträgen ist daher sehr wichtig. In dieser Arbeit stellen wir den Prozess der Erstellung eines fein abgestimmten Modells basierend auf dem BERT vortrainierten Sprachmodell zur Klassifizierung von anstößiger Sprache auf Twitter vor. Dieser Ansatz nutzt die Sprachmodelle, die mit einem großen Korpus unsupervised vortrainiert wurden. Wir vergleichen unser Modell mit anderen Ansätzen aus GermEval 2018 und GermEval 2019 für offensive Sprachklassifikationsaufgaben. Die abschließende Auswertung zeigt, dass unser Modell gegenüber anderen eine bessere Leistung aufweist. Stichwörter: Hate speech, Social media, Sentiment analysis, NLP, Neural Network, BERT, Pre-trained Language Model.
PDF File Download
Export BibTeX