Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Data Mining within Eclipse Building a Data Mining Framework with Weka and Eclipse
Organization Unit
Authors
  • Julio Gonnet
Supervisors
  • Patrick Knab
  • Harald Gall
Institution University of Zurich
Faculty Faculty of Economics, Business Administration and Information Technology
Date 2007
Abstract Text In the past years, there has been a great interest in the field of data mining. All around the world, larger companies have been investing vast sums of money in enormous data-warehouses and powerful data mining facilities, in the hope of extracting new information and so attain an economic advantage over other companies. With today’s fast-growing technology, interoperability and tendencies for just-in-time systems, it is becoming more likely that one will use or depend on data that does not yet exist or belong to one’s self. Furthermore, from a software engineering point of view, direct access to an application’s database is not recommended, due to the entailing dependencies and coupling to the application. Ultimately, we will want to do a lot more than just mine a set of data from our local database. Be it a more powerful pre-processing of data, the integration with other business applications or the automatic creation of a report for management, we will not get around having to integrate data mining solutions in order to solve more complex problems. In our specific case, we are especially interested in the analysis of software evolution and require a data mining framework that will seamlessly integrate with an IDE, an integrated development environment such as eclipse, already offering a large variety of components that produce softwarerelated data. In this thesis, we present the design and development of a data mining framework, integrating arbitrary data sources, existing data mining facilities and potential data consumers. In the first two chapters, we provide a brief introduction to the world of data mining, explain the need for integration and outline the framework’s requirements. The tool’s functionality is presented as a guided tour of the framework, followed by an in-depth technical look at the framework’s main components. We then discuss the various highlights and problems encountered, present a simple proof of concept and round it off with our conclusions and an outlook to the framework’s future development.
Zusammenfassung In den letzten Jahren hat das Interesse an Datamining stark zugenommen. Überall auf der ganzen Welt haben grössere Firmen hohe Geldbeträge in umfassende Data-Warehouses und leistungsfähige Datamining Applikationen investiert, in der Hoffnung, dadurch neue Informationen zu erhalten und so einen ökonomischen Vorteil gegenüber anderen Firmen zu erzielen. Mit der heutigen, sich schnell entwickelnden Technologie, Interoperabilität und der Tendenz zu Just-In-Time-Systemen wird es immer wahrscheinlicher, Daten zu benutzen oder von Daten abhängig zu sein, welche noch nicht existieren oder uns schlichtweg nicht gehören. Ferner ist der direkte Zugriff auf die Datenbank einer Applikation vom Standpunkt des Software-Engineerings aus wegen der damit verbundenen Abhängigkeit und Koppelung zur Applikation nicht zu empfehlen. Letzendlich werden wir viel mehr unternehmen wollen, als lediglich Daten aus unserer lokalen Datenbanken zu extrahieren. Egal ob es sich dabei um die leistungsfähigere Vor-Verarbeitung der Daten handelt, die Integration anderer Business-Applikationen oder die automatische Erzeugung eines Reports für das höhere Management, wir kommen letztendlich nicht darum herum, bestehende Datamining Lösungen integrieren zu müssen, um komplexere Probleme zu lösen. In unserem spezifischen Fall sind wir speziell an der Analyse der Software Evolution interessiert und benötigen dafür ein Datamining-Framework, welches sich nahtlos in eine IDE, ein Integrated Development Environment, wie Eclipse integrieren lässt, welches bereits eine grosse Auswahl an Komponenten anbietet, welche softwarebezogene Daten produzieren. In dieser Diplomarbeit präsentieren wir das Design und die Entwicklung eines Datamining-Frameworks, welches frei wählbare Datenquellen, bestehende Datamining-Lösungen und potenzielle Datenkonsumenten integriert. In den ersten zwei Kapiteln stellen wir die Welt des Dataminings kurz vor, erklären die Notwendigkeit der Integration und umreissen die Anforderungen an das Framework. Die Funktionalität des Frameworks wird in Form einer geführten Tour durch das Framework vorgestellt, gefolgt von einem tiefgehenden technischen Blick auf dessen Hauptkomponenten. Danach diskutieren wir die verschiedenen Besonderheiten und Probleme, auf welche wir gestossen sind, präsentieren ein schlichtes Proof of Concept und schliessen mit den Schlussfolgerungen und einem Ausblick auf die zukünftige Entwicklungsmöglichkeiten des Frameworks ab.
Export BibTeX