Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Mining Data Management Tasks in Computational Notebooks: an Empirical Analysis
Organization Unit
Authors
  • Santiago Cepeda
Supervisors
  • Cristina Sarasua
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2020
Abstract Text The aim of this thesis is to further our understanding of how data scientist work, specifically with regards to data management tasks. The motivation behind this goal is the prevalent gap in respect to the empirical evidence showcasing concrete data management tasks in data science, and the role which it plays in relation to the entire data science process. Furthermore, the main focus has been narrowed down to analyze specifically data cleaning and data integration tasks within data management. This goal was achieved by labelling, mining and applying statistical tests to real-world data science notebooks. A keyword labelling system was created in the process, which was able to identify and label multiple types of cells within notebooks. The end results were three different annotated datasets. This constitutes one dataset for each notebook type identified during this thesis: simple descriptive, descriptive mining and predictive mining notebooks. Based on the empirical analysis, it can be concluded that on average there are 6.56 total data cleaning tasks, and 5.38 total data integration tasks per notebook across all notebook types. Furthermore, there are on average between 5.7 to 6.9 files being imported inside of a notebook. The results also indicate that data cleaning amounts on average between 10.18\% and 10.98\% of an entire notebook, depending on the notebook type . For data integration tasks it is between 9.55\% and 11.31\%. This research also backs Krishnan et al. (2016) claim that data cleaning is a non-linear and iterative process. Moreover, this thesis has shown that data integration as well, is a non-linear and iterative process. References Krishnan, S., Haas, D., Franklin, M. J., and Wu, E. (2016). Towards reliable interactive data cleaning: A user survey and recommendations. In Proceedings of the Workshop on Human-In-the-Loop Data Analytics, pages 1-5.
Zusammenfassung Das Ziel dieser Arbeit ist, das Verständnis darüber zu vertiefen, wie Datenwissenschaftler arbeiten und dies insbesondere im Hinblick auf die Aufgaben des Datenmanagements. Die Motivation hinter dieser Arbeit ist, die vorherrschende Lücke in Bezug auf die mangelnde empirische Evidenz zu den konkreten Datenmanagementaufgaben in der Datenwissenschaft zu füllen. Ebenfalls von Interesse ist zu erkennen, welche Rolle die Datenmanagementaufgaben in Bezug auf den gesamten datenwissenschaftlichen Prozess spielt. Darüber hinaus wird das Hauptaugenmerk auf die Analyse spezifischer Datenbereinigungs- und Datenintegrationsaufgaben innerhalb des Datenmanagements gelegt. Dieses Ziel wird durch Etikettierung, Data-Mining und die Anwendung statistischer Tests auf Daten-Wissenschaft-Notebooks aus der realen Welt erreicht. Dabei erhält man ein Schlüsselwort-Kennzeichnungssystem, das in der Lage ist, mehrere Arten von Zellen innerhalb von Daten-Wissenschaft-Notebooks zu identifizieren und zu kennzeichnen. Es resultieren drei verschiedene Datensätze. Es handelt sich dabei um einen Datensatz für jeden Notebook-Typ, der im Rahmen dieser Arbeit identifiziert wird: einfach deskriptiv, deskriptive und prädiktive Daten-Wissenschaft-Notebooks. Auf der Grundlage der empirischen Analyse kann der Schluss gezogen werden, dass es im Durchschnitt 6,56 Gesamtaufgaben zur Datenbereinigung und 5,38 Gesamtaufgaben zur Datenintegration pro Notebook über alle Notebooktypen hinweg gibt. Darüber hinaus werden im Durchschnitt je nach Notebook-Typ zwischen 5,7 und 6,9 Dateien innerhalb eines Notebooks importiert. Die Ergebnisse deuten auch darauf hin, dass die Datenbereinigung in einem datenwissenschaftlichen Projekt, je nach Notebook-Typ im Durchschnitt nur zwischen 10,18\% bis 10,98\% eines ganzen Data-Mining Notebooks ausmacht. Bei Datenintegrationsaufgaben sind es zwischen 9,55\% bis 11,31\%. Die empirische Evidenz unterstützt die Behauptung von Krishnan et al. (2016), dass Datenbereinigung ein nichtlinearer und iterativer Prozess ist. Diese Masterarbeit kommt zum Schluss, dass auch die Datenintegration ein nichtlinearer und iterativer Prozess ist. Literaturverzeichnis Krishnan, S., Haas, D., Franklin, M. J., and Wu, E. (2016). Towards reliable interactive data cleaning: A user survey and recommendations. In Proceedings of the Workshop on Human-In-the-Loop Data Analytics, pages 1-5.
PDF File Download
Export BibTeX