Not logged in.

Contribution Details

Type Dissertation
Scope Discipline-based scholarship
Title Event-based Vision for High-Speed Robotics
Organization Unit
Authors
  • Elias Müggler
Supervisors
  • Davide Scaramuzza
Language
  • English
Institution University of Zurich
Faculty Faculty of Business, Economics and Informatics
Date 2017
Abstract Text Cameras are appealing sensors for mobile robots because they are small, passive, inexpensive and provide rich information about the environment. While cameras have been used successfully on a plenitude of robots, such as autonomous cars or drones, serious challenges remain: power consumption, latency, dynamic range, and frame rate, among others. The sequences of images acquired by a camera are highly redundant (both in space and time), and both acquiring and processing such an amount of data consumes significant power. This limits the operation time of mobile robots and, moreover, defines a fundamental power-latency tradeoff. Specialized cameras designed for high-speed or high-dynamic-range scenarios are expensive, heavy, and require additional power, which prevents their use in agile mobile robots. In this thesis, we investigate event cameras as a biologically-inspired alternative to overcome the limitations of standard cameras. These neuromorphic vision sensors work in a completely different way: instead of providing a sequence of images (i.e., frames) at a constant rate, event cameras transmit only information from those pixels that undergo a significant brightness change. These pixel-level brightness changes, called events, are timestamped with micro-second resolution and transmitted asynchronously at the time they occur. Hence, event cameras are power efficient because they convey only non-redundant information, and are able to capture very high-speed motions, thus they directly address the power-latency tradeoff. Additionally, event cameras achieve a dynamic range of more than 140dB, compared to about 60dB of standard cameras, because each pixel is autonomous and operates at its own set-point. However, since the output of an event camera is fundamentally different from that of standard cameras for which computer-vision algorithms have been developed during the past fifty years, new algorithms that can deal with the asynchronous nature of the sensor and exploit its high temporal resolution are required to unlock its potential. This thesis presents algorithms for using event cameras in the context of robotics. Since event cameras are novel sensors that are being intensively prototyped and have been commercially available only recently (ca. 2008), the literature on event-based algorithms is scarce. This poses some operational challenges as well as uncountable opportunities to explore in research. This thesis focuses on exploring the possibilities that event cameras bring to some fundamental problems in robotics and computer vision, such as localization and actuation. Amongst others, this thesis provides contributions to solving the localization problem, i.e., for a robot equipped with an event camera to be able to infer its location with respect to a given map of the environment. Classical approaches for robot localization build upon lower-level vision algorithms, and so, this thesis also presents contributions in the topics of detection, extraction, and tracking of salient visual features with an event camera, whose applicability expands far beyond the localization problem. This thesis also presents contributions in the use of event cameras for actuation and closed-loop control, i.e., in endowing the robot with the capabilities to interact with the environment to fulfill a given task. Additionally, this thesis also presents the infrastructure developed to work with event cameras in a de-facto standard robotics platform. The following is a list of contributions: * Software infrastructure, consisting of publicly available drivers, calibration tools, sensor delay characterization, and the first event camera dataset and simulator tailored for 6-DOF (degrees of freedom) camera pose estimation and SLAM (Simultaneous localization and mapping). * We introduce the concept of event "lifetime" and provide an algorithm to compute it. The lifetime endows the events with a finite temporal extent for a proper continuous representation of events in time. * The first method to extract FAST-like visual features (i.e., interest points or corners) from the output of an event camera. The detector operates an order of magnitude faster than previous corner detectors. * The first method to extract and track features from the output of a DAVIS camera (an event camera that also outputs standard frames from the same pixel array). Using these feature tracks, we developed the first sparse, feature-based visual-odometry pipeline. * The first two methods to track the 6-DOF pose of an event camera in a known map.While the first method minimizes the reprojection error of the events and only works on black-and-white scenes consisting of line segments, the second method uses a probabilistic filtering framework that allows tracking at high speeds on natural scenes. * The first application of a continuous-time framework to estimate the trajectory of an event camera, possibly incorporating inertial measurements, showing superior performance over pose-tracking-only methods. * An application of event cameras to collision avoidance of a quadrotor, showing how event cameras can be used to control a robot with very low latency. * An application of the use of an event camera for human-vs-machine slot-car racing, showing that event-driven algorithms are power efficient and can outperform human control.
Zusammenfassung Kameras sind sehr nützliche Sensoren für mobile Roboter, weil sie klein, passiv und kostengünstig sind sowie reichhaltige Informationen der Umgebung liefern. Obwohl Kameras erfolgreich in einer Vielzahl von Robotern, wie zum Beispiel autonomen Fahrzeugen oder Drohnen, verwendet werden, stellen Energiebedarf, Latenz, Dynamikbereich und Bildfrequenz beträchtliche Herausforderungen dar. Die Bildsequenz von Kameras enthält viel Redundanz (sowohl zeitlich wie räumlich) und sowohl das Aufnehmen wie das Verarbeiten dieser Datenmenge benötigt viel Leistung. Dies limitiert die Betriebszeit mobiler Roboter und definiert einen fundamentalen Kompromiss zwischen Energiebedarf und Latenz. Spezialkameras für Hochgeschwindigkeits- und Hochkontrastanwendungen sind teuer, schwer, und brauchen zusätzliche Energie, was deren Anwendung in agilen mobilen Robotern verunmöglicht. In dieser Dissertation untersuchen wir Event-Kameras als bioinspirierte Alternative um die Limitationen von Standardkameras zu überwinden. Diese neuromorphischen visuellen Sensoren funktionieren auf komplett andere Weise. Anstatt einer Bildsequenz mit einer konstanten Frequenz zu liefern, senden Event-Kameras nur Informationen von den Pixeln, bei denen sich die Helligkeit signifikant verändert hat. Solche pixelweise Veränderungen nennen wir Events, welche mit einem Zeitstempel mit der Genauigkeit von Mikro-Sekunden versehen und unmittelbar danach asynchron übermittelt werden. Da nur nicht-redundante Informationen übertragen werden sind Event-Kameras energieeffizient und in der Lage, sehr schnelle Bewegungen zu erfassen. Damit nehmen sie den Kompromiss zwischen Energiebedarf und Latenz direkt in Angriff. Zudem verfügen Event-Kameras über einen Dynamikbereich von über 140dB (Standardkameras verfügen typischerweise um die 60dB), weil jedes Pixel selbständig ist. Da das Datensignal einer Event-Kamera fundamental anders ist als dasjenige einer Standardkamera (für welche über die letzten fünfzig Jahren Algorithmen für maschinelles Sehen entwickelt wurden) werden neue Algorithmen benötigt, die mit der asynchronen Funktionsweise klarkommen und die hohe zeitliche Auflösung ausnutzen können. Diese Dissertation präsentiert Algorithmen für Event-Kameras im Bereich Robotik. Da Event-Kameras neuartige Sensoren sind und kommerziell erst seit 2008 erhältlich sind, ist die Literatur über solche Algorithmen spärlich. Dies erschwert die Handhabung dieser Sensoren, eröffnet aber unzählige Möglichkeiten, die es zu erforschen gilt. Diese Dissertation untersucht die Möglichkeiten von Event-Kameras für fundamentale Probleme der Robotik und des maschinellen Sehens wie zum Beispiel Lokalisierung und Steuerung. Unter anderem bietet diese Dissertation Beiträge zur Lösung des Lokalisierungsproblems, d.h. für einen Roboter, der mit einer Event-Kamera ausgestattet ist, in der Lage zu sein, seinen Standort bezüglich einer gegebenen Karte der Umgebung zu bestimmen. Klassische Ansätze zur Roboterlokalisierung bauen auf untergeordneten Algorithmen auf, sodass diese Dissertation auch Beiträge zu den Themen Detektion, Extraktion und Verfolgung von markanten visuellen Merkmalen (Features) mit einer Event-Kamera präsentiert, deren Anwendbarkeit weit über das Lokalisierungsproblem hinausgeht. Diese Arbeit präsentiert auch Beiträge zur Verwendung von Event-Kameras für die Steuerung und Regelung, d.h. der Möglichkeit eines Roboters mit seiner Umgebung zu interagieren um ein bestimmtes Ziel zu erreichen. Darüber hinaus präsentiert diese Dissertation auch die Infrastruktur, die entwickelt wurde, um Event-Kameras in einer weitverbreiteten Robotikplattform zu verwenden. Es folgt eine Liste der Beiträge: * Software-Infrastruktur, bestehend aus öffentlich zugänglichen Treibern, Kalibrierungswerkzeugen, Charakterisierung der Sensorlatenz und dem ersten Datensatz und Simulator von Event-Kameras für Kamerapositionsschätzung und SLAM (Simultane Lokalisierung und Kartierung) mit sechs Freiheitsgraden (FHG). * Wir stellen das Konzept der Event-"Gültigkeitsdauer" vor und liefern einen Algorithmus um diese zu berechnen. Die Gültigkeitsdauer verleiht einem Event eine endliche zeitliche Ausdehnung und erlaubt eine kontinuierliche Darstellung von Events in der Zeit. * Die erste Methode um FAST-ähnliche visuelle Features (d.h. charakteristische Punkte oder Ecken) aus dem Datensignal einer Event-Kamera zu extrahieren. Der Detektor läuft eine Grössenordnung schneller als bisherige Detektoren. * Die erste Methode um Features aus dem Datensignal einer DAVIS-Kamera (eine Event-Kamera, die nebst Events auch normale Bilder von den gleichen Pixeln ausgibt) zu extrahieren und zu verfolgen. Mit diesen Features entwickelten wir das erste Feature-basierte visuelle Odometrie-System. * Die ersten beiden Methoden, um die Bewegung einer Event-Kamera mit 6~FHG in einer bekannten Karte der Umgebung zu schätzen. Die erste Methode minimiert den Reprojektionsfehler der Events und funktioniert nur auf Schwarz-Weiss-Szenen, die aus Liniensegmenten bestehen. Die zweite Methode hingegen verwendet einen probabilistischen Filter, der die Verfolgung bei hohen Geschwindigkeiten in natürlicher Umgebung ermöglicht. * Die erste Anwendung einer zeitkontinuierlichen Darstellung der Trajektorie einer Event-Kamera, die ebenfalls Inertialmessungen beinhaltet kann, die Filter-basierten Methoden übertrifft was Genauigkeit betrifft. * Eine Anwendung von Event-Kameras zur Kollisionsvermeidung eines Quadrokopters, die zeigt, wie Event-Kameras verwendet werden können um einen Roboter mit sehr geringer Latenz zu steuern. * Eine Anwendung von einer Event-Kamera für Mensch-gegen-Maschine-Rennen auf einer Modellautorennbahn zeigt, dass Event-basierte Algorithmen effizient sind und die menschliche Leistung übertreffen können.
Other Identification Number merlin-id:15631
PDF File Download from ZORA
Export BibTeX
EP3 XML (ZORA)