Not logged in.

Quick Search - Contribution

Contribution Details

Type	Master's Thesis
Scope	Discipline-based scholarship
Title	Sentiment Analysis for Twitter: Supervised Machine Learning
Organization Unit	Computational Linguistics (Martin Volk)
Authors	Yuezhu Zhang
Supervisors	Martin Volk Manfred Klenner
Language	English
Institution	University of Zurich
Faculty	Faculty of Business, Economics and Informatics
Date	2021
Abstract Text	Currently on many social media platforms, offensive language is a severe problem which may cause legal issues. Sentiment Analysis mainly focuses on text analysis, therefore it is an important tool to solve this problem. However, merely differentiating the posts between positive and negative opinions is insufficient: nowadays, many social media platforms are requested to remove offensive content and to monitor discussions on their websites. To build an automated classification system and to remove posts on time is highly necessary. In this thesis, we present the process of building a fine-tuned model based on the BERT pre-trained language model for classifying offensive language from Twitter. This approach takes advantage of the language models that had been pre-trained in an unsupervised manner with a large corpus. We compare our model with other approaches from GermEval 2018 and GermEval 2019 for offensive language classification tasks. The final evaluation shows that our model has better performance over others. Keywords: Hate speech, Social media, Sentiment analysis, NLP, Neural Network, BERT, Pre-trained Language Model.
Zusammenfassung	In vielen sozialen Medien stellt beleidigende Sprache derzeit ein schwerwiegendes Problem dar, das zu rechtlichen Problemen führen kann. Sentiment Analysis konzentriert sich hauptsächlich auf die Textanalyse und ist daher ein wichtigesWerkzeug zur Lösung dieses Problems. Es reicht jedoch nicht aus, die Beiträge nur hinsichtlich positiver und negativer Meinungen zu unterscheiden. Heutzutage werden viele Social Media Plattformen aufgefordert, anstößige Inhalte zu entfernen und die Diskussionen auf ihren Websites zu überwachen. Der Aufbau eines automatisierten Klassifizierungssystems und die rechtzeitige Entfernung von Beiträgen ist daher sehr wichtig. In dieser Arbeit stellen wir den Prozess der Erstellung eines fein abgestimmten Modells basierend auf dem BERT vortrainierten Sprachmodell zur Klassifizierung von anstößiger Sprache auf Twitter vor. Dieser Ansatz nutzt die Sprachmodelle, die mit einem großen Korpus unsupervised vortrainiert wurden. Wir vergleichen unser Modell mit anderen Ansätzen aus GermEval 2018 und GermEval 2019 für offensive Sprachklassifikationsaufgaben. Die abschließende Auswertung zeigt, dass unser Modell gegenüber anderen eine bessere Leistung aufweist. Stichwörter: Hate speech, Social media, Sentiment analysis, NLP, Neural Network, BERT, Pre-trained Language Model.
PDF File	Download
Export	BibTeX