Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title XML to RDF Transformation
Organization Unit
Authors
  • Markus Fehlmann
Supervisors
  • Harald Gall
Institution University of Zurich
Faculty Faculty of Economics, Business Administration and Information Technology
Date 2006
Abstract Text XML continues to be the primary format for data exchange in distributed systems. However, since several serializations of domain specific knowledge are possible, XML documents have no immanent semantic. The Semantic Web provides a common framework that allows data to be shared and reused across application, enterprise, and community boundaries. The Resource Description Framework (RDF), which is part of the Semantic Web, formalizes the meaning of information. While many documents are encoded in XML, only few documents are represented in RDF. In his PhD thesis, Reif proposed an algorithm and did a prototype implementation, called WEESA, that generates RDF graphs out of arbitrary XML documents by applying processing instructions defined in a mapping. In this thesis we propose an object-oriented architecture of the mapping algorithm in order to improve its maintainability, efficiency, and extensibility. In addition to that, we introduce new mapping directives that simplify the mapping definition process. The result of this thesis is a new implementation of the mapping algorithm that incorporates the suggested object-oriented architecture and the additional mapping constructs. Thus, the transformation from XML data to RDF could be simplified to a reasonable extent. A prominent example that benefits from our results is the semantic annotation of Web sites.
Zusammenfassung XML ist das tragende Format um Daten in verteilten Systemen auszutauschen. Allerdings haben XML Dokumente keine immanente Semantik, da in XML unterschiedliche Serialisierungen desselben domänenspezifischen Wissens möglich sind. Das semantische Web bietet ein Rahmenwerk, das es erlaubt, Daten über Anwendungs- und Unternehmensgrenzen hinaus zu teilen und wiederzuverwenden. Das Resource Description Framework (RDF), ein Bestandteil des semantischen Webs, formalisiert hierzu die Bedeutung von Informationen. Während viele Dokumente in XML vorliegen, existieren erst wenige, die eine RDF Repräsentation haben. Reif schlug in seiner Dissertation einen Algorithmus vor, der RDF Repräsentationen aus beliebigen XML Dokumenten erstellt, indem Verarbeitungsanweisungen aus einem Mappingdokument auf das XML Dokument angewendet werden. Ebenso hat er den Algorithmus prototypisch implementiert. In dieser Arbeit stellen wir eine objektorientierte Architektur des Mapping Algorithmus vor, um dessen Wartbarkeit, Effizienz und Erweiterbarkeit zu verbessern. Zusätzlich erweitern wir das Mappingvokabular um Anweisungen, welche die Erstellung von Mappings vereinfachen. Das Ergebnis dieser Arbeit ist eine neue Implementierung des genannten Algorithmus, der die objektorientierte Architektur und die neuen Mappinganweisungen vereinigt. Auf dieseWeise konnte die Transformation von XML Dokumenten in das RDF Format erheblich vereinfacht werden. Ein bedeutendes Anwendungsgebiet, das von unseren Ergebnissen profitieren kann, ist die semantische Annotation von Webseiten.
Export BibTeX