Not logged in.

Contribution Details

Type Bachelor's Thesis
Scope Discipline-based scholarship
Title KrowDD: Estimating Feature Relevance before Obtaining Data
Organization Unit
  • Marcel C. Bühler
  • Patrick De Boer
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date February 2017
Abstract Text Before building a classifier to make predictions about a target variable, one must decide what input data to use. Most scientific publications about feature selection deal with methods that can be used once training data has been collected. Yet, in the real world, one has to collect, clean and transform data before it can be used to create predictive models. Collecting data is a very expensive and time consuming process. Going through this process for data not relevant to the target variable is very inefficient. A common approach to minimize the effort for feature selection is asking domain experts for their opinion. However, experts have been shown to perform worse at this task than one might expect. In this paper, I present a tool, KrowDD, that is able to identify relevant features among a number of feature ideas before obtaining data. An evaluation using three datasets shows that KrowDD performs significantly better than human experts. KrowDD is the first step on the way to more efficient feature selection: feature selection before obtaining training data.
Zusammenfassung Eine der wichtigsten Entscheidungen vor dem Bauen eines Classifiers ist das Auswählen der Eigenschaften, mit denen ein Trainings-Set repräsentiert wird. Bisherige wissenschaftliche Arbeiten behandeln hauptsächlich Techniken, die relevante Eigenschaften mit Hilfe von vorhandenen Trainings-Daten bestimmen. Das Sammeln und Säubern dieser Daten ist jedoch ein teurer Prozess. Oft werden Ressourcen für das Vorbereiten irrelevanter Daten verschwendet. Eine übliche Vorgehensweise für das Identifizieren relevanter Eigenschaften für ein bestimmtes Modell ist deshalb das Befragen von Experten. Experten wählen jedoch oft nicht die optimalen Eigenschaften aus. In dieser Arbeit präsentiere ich deshalb KrowDD, ein effizientes Verfahren, das ohne Trainings-Daten aus einer Menge von Ideen relevante Eigenschaften identifizieren kann.
PDF File Download
Export BibTeX