Not logged in.

Contribution Details

Type Master's Thesis
Scope Discipline-based scholarship
Title Approximate Boolean Retrieval
Organization Unit
Authors
  • Lawand Muhamad
Supervisors
  • Luca Rossetto
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2021
Abstract Text The standard interpretation of the logical operators in the Boolean model is often either too strict or too open. A query containing several with AND connected terms is often too narrow, while a query containing several with OR connected terms is often too broad. As such, if the descriptors of the entries are incomplete or information is missing beforehand, the traditional Boolean query rarely comes close to retrieving all and only those items which are relevant to the user. To address the limitations of the traditional Boolean model, this work presents the design and implementation of an extended Boolean model in vitrivr, a multimedia retrieval system supporting the vector space and the traditional Boolean model. Besides UI improvemens, additions made to the model consist of (i) weighted query terms, adding the possibility to weight with OR connected terms, (ii) term preferences, a functionality to set additional terms only as soft preferences rather than hard requirements, (iii) late stage weighting, a mechanism allowing to increase or decrease the weight of the Boolean score relative to other vector space features in vitrivr. Based on the HAM10000 data set consisting of dermatoscopic images with associated metadata, the extended model was evaluated by measuring the precision in retrieving the relevant results. It could be shown that the model could address many drawbacks of the traditional Boolean model and an increase in retrieving the relevant results from a Boolean query can be achieved.
Zusammenfassung Die Standardinterpretation der logischen Operatoren im Booleschen Modell ist oft entweder zu streng oder zu offen. Eine Abfrage, die mehrere mit UND verknüpfte Terme enthält, ist oft zu strikt, während eine Abfrage, die mehrere mit ODER verknüpfte Terme enthält, oft zu ungenau ist. Wenn die Deskriptoren der Einträge unvollständig sind oder Informationen fehlen, ist die traditionelle Boolesche Abfrage selten in der Lage, alle und nur die für den Benutzer relevanten Elemente abzurufen. Um die Einschränkungen des traditionellen Booleschen Modells anzugehen, wird in dieser Arbeit der Entwurf und die Implementierung eines erweiterten Booleschen Modells in vitrivr vorgestellt, einer multimedia Suchmaschine, das den Vektorraum-Retrieval und das traditionelle Boolesche Modell unterstützt. Die Ergänzungen des Modells bestehen aus (i) gewichteten Abfrage Container, die die Möglichkeit bietet, mit ODER verbundene Container zu gewichten, (ii) Termpräferenzen, eine Funktion, mit der zusätzliche Terme nur als weiche Präferenzen anstatt als harte Filter festgelegt werden können, (iii) finale Boolean Gewichtung, ein Mechanismus, der es ermöglicht, das Gewicht des Booleschen Scores im Verhältnis zu anderen Vektorraummerkmalen in vitrivr zu erhöhen oder zu verringern. Auf der Grundlage des HAM10000-Datensatzes, der aus dermatoskopischen Bildern mit zugehörigen Metadaten besteht, wurde das erweiterte Modell durch Messung der Genauigkeit beim Auffinden relevanter Ergebnisse bewertet. Es konnte gezeigt werden, dass das Modell viele Nachteile des traditionellen Booleschen Modells beheben kann und zudem eine Verbesserung beim Abrufen der relevanten Ergebnisse einer Booleschen Abfrage erreicht werden kann.
PDF File Download
Export BibTeX