Not logged in.

Contribution Details

Type Bachelor's Thesis
Scope Discipline-based scholarship
Title Integrating the RCAS Index with the Software Heritage Archive
Organization Unit
Authors
  • Marc Rettenbacher
Supervisors
  • Michael Hanspeter Böhlen
  • Kevin Wellenzohn
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2020
Abstract Text The Software Heritage Archive aims to collect and preserve all publicly available software in the form of source code. It saves the project history and structure in the form of a graph and makes it publicly available through multiple interfaces. We want to use the data from the Software Heritage Archive to test the novel Robust Content-And-Structure (RCAS) index on a larger scale. This is a first step to providing an interface to query the Software Heritage Archive directly. For this we propose a way to parse the Archive and extract file paths and file sizes of all projects as sample values for both Content and Structure, as the current interfaces do not directly offer this functionality. We implement and use a RCAS index to integrate our parsed data, as the index is made for semi-structured hierarchical data and thus answers CAS queries efficiently. To measure the index performance, we run different queries against it, utilizing the descendant axis // and the wildcard character * in the path part of the query. We found that the placement of the descendant axis // and wildcard * has a large impact on query performance.
Zusammenfassung Das Ziel des Software Heritage Archives ist es, alle öffentlich verfügbare Software als Source Code zu sammeln und zu archivieren. Es speichert die Struktur und den Verlauf aller Projekte als Graph und macht diesen durch mehrere Schnittstellen öffentlich zugänglich. Wir wollen die Daten des Software Heritage Archives dazu nutzen, den neuartigen "Robust Content-And- Structure" Index mit einem grösseren Datenset zu testen. Dies ist der erste Schritt, um eine Schnittstelle für die Abfragung des Software Heritage Archives direkt zu erstellen. Wir stellen einen Ansatz dar, um Dateipfade und Dateigrössen als Beispiele für sowohl Struktur als auch Inhalt des Archives herauszulesen, da die jetzigen Schnittstellen diese Funktionalität nicht anbieten. Wir implementieren und benutzen den RCAS Index um die analysierten Daten mit dem Index zu integrieren, da er für halbstrukturierte, hierarchische Daten gemacht wurde und daher CAS Abfragen effizient beantworten kann. Um die Performance des Indexes zu messen benutzen wir mehrere Abfragen, die unter anderem die "descendant axis //" und den "wildcard character *" beinhalten. Wir lernen, dass die Position der "descendant axis //" und der "wildcard *" in der Abfrage einen wichtigen Einfluss auf die Performance hat.
PDF File Download
Export BibTeX