Not logged in.

Contribution Details

Type Bachelor's Thesis
Scope Discipline-based scholarship
Title Information Extraction of Statistical Knowledge - applied on Wikipedia and CrossValidated
Organization Unit
Authors
  • Rüegg Simon
Supervisors
  • Michael Feldman
  • Patrick De Boer
Language
  • English
Institution University of Zurich
Faculty Faculty of Economics, Business Administration and Information Technology
Number of Pages 47
Date April 2015
Abstract Text An evident shift from static web pages to online collaboration platforms can be observed in the World Wide Web. Wikipedia and CrossValidated are two examples of such platforms. They are entirely dependent on the user's contributions and content generation presents itself as an iterative process. That makes the mentioned platforms a reliable source that is always up-to-date. This thesis discusses information extraction from such platforms that contain statistical knowledge and tries to make a first step towards representing statistical knowledge entirely in structured graphs, which would make it possible to execute data analysis as a hierarchical process. It is shown that valuable data may be extracted successfully, but the need to further assure their quality still exists.
Zusammenfassung Im World Wide Web lässt sich eine Entwicklung von statischen Websites zu kollaborativen online Plattformen erkennen. Wikipedia und CrossValidated sind zwei Beispiele solcher Portale. Sie sind vollkommen abhängig von den Beiträgen ihrer User und die Wissensgenerierung gestaltet sich als iterativer Prozess ständiger Anpassungen. Dies macht die erwähnten Portale zu zuverlässigen Quellen von Informationen, die stets auf dem aktuellen Stand sind. Die vorliegende Arbeit beschäftigt sich mit der Extraktion von Informationen von den erwähnten Portalen, welche statistisches Wissen beinhalten. Das Ziel ist die Repräsentation statistischen Wissens in strukturierten Graphen und deren Anwendung als hierarchischer Prozess. Es zeigt sich, dass durchaus wertvolle Informationen gewonnen werden konnten, es jedoch weitere qualitative Massnahmen nötig haben wird um wirklich verlässliche Daten zu erhalten.
PDF File Download
Export BibTeX