Not logged in.

Contribution Details

Type Dissertation
Scope Discipline-based scholarship
Title Crowd process design : how to coordinate crowds to solve complex problems
Organization Unit
Authors
  • Patrick De Boer
Supervisors
  • Abraham Bernstein
  • Philippe Cudré-Mauroux
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Number of Pages 85
Date October 2017
Abstract Text The Internet facilitates an on-demand workforce, able to dynamically scale up and down depending on the requirements of a given project. Such crowdsourcing is increasingly used to engage workers available online. Similar to organizational design, where business processes are used to organize and coordinate employees, so-called crowd processes can be employed to facilitate work on a given problem. But as with business processes, it is unclear which crowd process performs best for a problem at hand. Aggravating the problem further, the impersonal, usually short-lived, relationship between an employer and crowd workers leads to major challenges in the organization of (crowd-) labor in general. In this dissertation, we explore crowd process design. We start by finding a crowd process for a specific use case. We then outline a potential remedy for the more general problem of finding a crowd process for any use case. The specific use case we focus on first, is an expert task, part of the review of statistical validity of research papers. Researchers often use statistical methods, such as t-test or ANOVA, to evaluate hypotheses. Recently, the use of such methods has been called into question. One of the reasons is that many studies fail to check the underlying assumptions of the employed statistical methods. This results in a threat to the statistical validity of a study and hampers the reuse of results. We propose an automated approach for checking the reporting of statistical assumptions. Our crowd process identifies reported assumptions in research papers achieving 85% accuracy. Finding this crowd process took us more than a year, due to the trial-and-error approach underlying current crowd process design, where in some cases a candidate crowd process was not reliable enough, in some cases it was too expensive, and in others it took too long to complete. We address this issue in a more generic manner, through the automatic recombination of crowd processes for a given problem at hand based on an extensible repository of existing crowd process fragments. The potentially large number of candidate crowd processes derived for a given problem is subjected to Auto-Experimentation in order to identify a candidate matching a user’s performance requirements. We implemented our approach as an Open Source system and called it PPLib (pronounced “People Lib”). PPLib is validated in two real-world experiments corresponding to two common crowdsourcing problems, where PPLib successfully identified crowd processes performing well for the respective problem domains. In order to reduce the search cost for Auto-Experimentation, we then propose to use black-box optimization to identify a well-performing crowd process among a set of candidates. Specifically, we adopt Bayesian Optimization to approximate the maximum of a utility function quantifying the user’s (business-) objectives while minimizing search cost. Our approach was implemented as an extension to PPLib and validated in a simulation and three real-world experiments. Through an effective means to generate crowd process candidates for a given problem by recombination and by reducing the entry barriers to using black-box optimization for crowd process selection, PPLib has the potential to automate the tedious trial-and-error underlying the construction of a large share of today’s crowd powered systems. Given the trends of an ever more connected future, where on-demand labor likely plays a key role, an efficient approach to organizing crowds is paramount. PPLib helps pave the way to an automated solution for this problem.
Zusammenfassung Das Internet beherbergt on-demand Arbeitskräfte, die ermöglichen, ein Team sehr schnell dynamisch zu vergrössern/verkleinern abhängig von den Anforderungen an eine bestimmte Aufgabe. Dieses sogenannte Crowdsourcing wird immer häufiger für produktive Arbeit eingesetzt. Ähnlich wie im Feld der Organisationsgestaltung, wo Business Prozesse verwendet werden um Mitarbeiter zu organisieren und zu koordinieren, können in Crowdsourcing hierfür Crowd Prozesse eingesetzt werden. Jedoch gilt genau wie bei Business Prozessen, dass vor dessen Umsetzung unklar ist, welcher Crowd Prozess am besten für ein bestimmtes Problem geeignet ist. Komplizierter wird das ganze dadurch, dass die unpersönliche und häufig kurzlebige Beziehung zwischen einem Arbeitgeber und solchen Online Arbeitnehmern, genannt Crowd Worker, zu Schwierigkeiten bei der Organisation von Crowd-Arbeit führen kann. Diese Doktorarbeit befasst sich mit dem Finden von geeigneten Crowd Prozessen. Wir beginnen damit, für einen konkreten Anwendungsfall einen Crowd Prozess zu finden. Danach stellen wir eine mögliche Abhilfe für die allgemeinere Fragestellung vor: Das Finden eines Crowd Prozesses für irgend ein Problem. Der konkrete Anwendungsfall, in dem wir für ein spezifisches Problem einen Crowd Prozess aufzeigen, gehört zum Review der statistischen Korrektheit eines Forschungsartikels. Forscher verwenden häufig statistische Methoden, wie zum Beispiel t-tests oder ANOVA, um Forschungshypothesen zu evaluieren. Solche statistische Methoden setzen jedoch gewisse Bedingungen ("Assumptions") voraus um angewendet werden zu können; Studien welche diese Assumptions vorher nicht in ihren Daten prüfen, gefährden die statistische Validität ihres Artikels und reduzieren die Verwendbarkeit der Studienresultate. Wir stellen einen automatisierten Ansatz vor, der prüft ob ein Forschungsartikel bestätigt, die notwendigen Assumptions getestet zu haben. Unser Crowd Prozess identifiziert solche Assumptions mit 85% Genauigkeit. Um den Crowd Prozesses für diesen konkreten Anwendungsfall zu finden, benötigten wir mehr als ein Jahr. Hauptverantwortlich dafür ist der trial-and-error Ansatz, der bislang dem Crowd Prozess Design zugrunde liegt. Dabei ist manchmal ein Prozesskandidat nicht genügend verlässlich, manchmal zu teuer und in wieder anderen Fällen zu langsam. Wir befassten uns deswegen mit einer generischen Lösung für Crowd Prozess Design, mittels automatischer Rekombination von Crowd Prozessen für ein gegebenes Problem basierend auf einer Sammlung an existierenden Fragmenten von bekannten Crowd Prozessen. Die potenziell grosse Anzahl Kandidatenprozesse, die für ein bestimmtes Problem mittels Rekombination abgeleitet werden kann, wird durch Auto-Experimentation gefiltert, um einen Kandidaten zu nominieren, der den Anforderungen eines User’s entspricht. Wir implementierten unseren Ansatz als Open Source System und nannten es PPLib (ausgesprochen “People Lib”). PPLib wird in zwei typsichen Crowd Prozess Problemstellungen evaluiert. Um die Suchkosten von Auto-Experimentation zu verringern, stellen wir danach ein Black-Box Optimierungsverfahren vor, das performante Crowd Prozesse effizient in einer Liste von Kandidaten identifiziert. Nach einer Quantifizierung der Bedürfnisse des Benutzers in einer Nutzenfunktion, können wir Bayesische Optimierung verwenden, um deren Maximum effizient zu approximieren. Unser Ansatz wurde als Erweiterung zu PPLib implementiert und sowohl in einer Simulation als auch in drei realen Anwendungsfällen evaluiert. Durch einen effektiven Ansatz zur Generierung von Crowd Prozessen für ein gegebenes Problem mittels Rekombination, sowie auch durch die Herabsetzung der Barrieren für Black-Box Optimierung für Crowd Prozess Selektion, hat PPLib das Potenzial das langwierige trial-and-error bei der Erstellungen von Crowdsourcing Systemen zu automatisieren. Es ist zu erwarten, dass on-demand Arbeit in Zukunft eine wichtige Rolle spielen wird. Eine effiziente Methode, um Crowds zu organisieren, ist hierfür eine Grundvoraussetzung. PPLib hilft, den Weg dafür zu ebnen.
Other Identification Number merlin-id:15635
PDF File Download from ZORA
Export BibTeX
EP3 XML (ZORA)