1. Echtzeiterkundung von Photorealistischen Virtuellen Welten
- Author
-
Rückert, Darius
- Subjects
ddc:004 - Abstract
In the last decade, many academic and industrial research groups around the globe are focusing on XR, leading to rapid progress of the field. Next to incremental hardware advances, new software techniques also play an important role in the recent success. The software improvements range from new tracking algorithms, which allow a more accurate and robust localization of the XR headset, to new rendering engines, which are able to render photo realistic environments in real time. In the first half of this thesis, I present my work on camera tracking of low-power mobile devices such as XR headsets. The proposed tracking pipeline uses several algorithmic tricks to reduce the computational complexity. For example, I present a novel decoupled formulation for visual inertial bundle adjustment, which makes the optimization more efficient and can be run in parallel. Furthermore, I show how recursive matrix algebra can be used to speed up the nonlinear optimization problems of a typical tracking pipeline. Overall, the proposed pipeline achieves a similar or better accuracy than the state-of-the-art while being substantially faster. On integrated or low-power computers, my method can process over 60 frames per second, which exceeds the frame rate of commodity cameras by a factor of two. Later in this thesis, I show how the output of my tracking system can be used to generate high-quality RGB and depth images from arbitrary locations in the scene. The proposed method renders triangulated depth images of keyframes to a target view and fuses them in the fragment shader. This approach is very efficient and allows large scene updates of the tracking system since no global volumetric model is built. AR applications can use the resulting images to visualize the scene or display virtual objects with correct occlusion. Finally, I present Approximate Differentiable One-Pixel Point Rendering (ADOP), a novel point-based neural rendering approach for real-time novel view synthesis. The input is an initial reconstruction of a scene using standard photogrammetry software. During a short training stage, neural point descriptors are learned as well as the parameters of a rendering network and a tone-mapper. After that we are able to synthesize photo-realistic views of these scenes at arbitrary camera locations. Due to a novel differentiable point rasterizer, we are also able to optimize the initial camera parameters and point cloud provided by the photogrammetry software. In several experiments, I show that this input optimization can significantly improve the image quality and make ADOP to one of the best performing neural rendering approaches. Im letzten Jahrzehnt haben sich viele akademische und industrielle Forschungsgruppen auf virtuelle und erweiterte Realität (XR) konzentriert, was zu einem raschen Fortschritt in diesem Bereich geführt hat. Neben inkrementellen Hardware-Fortschritten spielen auch neue Softwaretechniken eine wichtige Rolle für den jüngsten Erfolg. Die Software-Verbesserungen reichen von neuen Tracking-Algorithmen, die eine genauere und robustere Lokalisierung des XR-Headsets ermöglichen, bis hin zu neuen Rendering-Engines, die in der Lage sind, fotorealistische Umgebungen in Echtzeit darzustellen. In der ersten Hälfte dieser Arbeit stellen ich meine Forschungsergebnisse zur Kamera Lokalisierung von effizienten mobilen Geräten wie XR-Headsets vor. Die vorgeschlagene Tracking-Pipeline verwendet mehrere algorithmische Tricks, um die Rechenkomplexität zu reduzieren. So stellen ich beispielsweise eine neuartige entkoppelte Formulierung für das inertial-visuelle Bundleadjustment vor, welche die Berechnung effizienter macht und parallel ausgeführt werden kann. Darüber hinaus zeige ich, wie rekursive Matrix Algebra verwendet werden kann, um die nichtlinearen Optimierungsprobleme dieser Pipeline zu beschleunigen. Insgesamt erreicht unsere Methode eine ähnliche oder bessere Genauigkeit als der Stand der Technik und ist dabei wesentlich schneller. Auf integrierten Computern mit geringem Stromverbrauch kann unsere Methode mehr als 60 Bilder pro Sekunde verarbeiten, was die Bildrate handelsüblicher Kameras um den Faktor zwei übersteigt. Im weiteren Verlauf dieser Arbeit zeige ich, wie die Ergebnisse dieser Trackingpipeline verwendet werden können, um qualitativ hochwertige RGB- und Tiefenbilder von beliebigen Orten in der Szene zu erzeugen. Die vorgeschlagene Methode rendert triangulierte Tiefenbilder von Keyframes zu einer Zielansicht und verschmilzt sie im Fragmentshader. Dieser Ansatz ist sehr effizient und ermöglicht umfangreiche Szenenaktualisierungen des Trackingsystems, da kein globales volumetrisches Modell erstellt wird. AR-Anwendungen können die resultierenden Bilder verwenden, um die Szene zu visualisieren oder virtuelle Objekte mit korrekter Verdeckung anzuzeigen. Schließlich stelle ich Approximate Differentiable One-Pixel Point Rendering (ADOP) vor - einen neuartigen punktbasierten neuronalen Rendering-Ansatz. Die Eingabe ist eine initiale Rekonstruktion einer Szene, die zuvor mit Hilfe von Photogrammetrie erstellt wurde. Daraufhin werden während einer kurzen Trainingsphase die neuronalen Punktdeskriptoren, die Parameter eines Rendering-Netzwerks und ein Tone-Mapping-Modell gelernt. Danach sind wir in der Lage, fotorealistische Ansichten dieser Szenen an beliebigen Kamerapositionen zu synthetisieren. Dank eines neuartigen differenzierbaren Punktrasterisieres ist es zusätzlich möglich, die anfänglichen Kameraparameter und die Punktwolke zu optimieren. In mehreren Experimenten zeigen wir, dass diese Eingabeoptimierung die Bildqualität deutlich verbessert und ADOP eines der aktuell besten neuronalen Rendering-Ansätze ist.
- Published
- 2023