The precise identification of the vehicle pose, which is comprised of the position and orientation within a local or global coordinate system, is a critical backbone module and an essential prerequisite for the safe and responsible operation of automated vehicles. In well-structured environments with low complexity, for example, on highways, series-produced vehicles already operate in an automated manner in specific scenarios using environment perception only. However, the deployment in highly dynamic and urban areas requires sophisticated perception and action planning algorithms to calculate and perform a driving maneuver appropriate to the current situation. For this purpose, the pose is estimated using self-localization approaches, which, combined with accurate digital map information acts as an additional sensor. For example, an intersection that the sensors cannot correctly perceive can be loaded from the digital map, and valuable and required information is extracted accordingly. Then, appropriate trajectories can be planned, which would not be possible without knowing the vehicle's position on the map. Subsequently, localization methods can be divided into several categories, often characterized by the type of map and measurement representation. This thesis focuses on processing pure point cloud-based measurements and landmarks, which means that the environment is represented by two or three-dimensional unordered and unstructured point sets. Traditional filter-based localization methods are well-explored in the literature, matching multi-modal sensor measurements, such as radar, camera, or lidar measurements, with information from a previously acquired high-accuracy digital map to infer the pose. This process requires a so-called association and matching algorithm, which is usually implemented by heuristic or hand-tuned algorithms. The application of deep neural networks has already revolutionized many areas of computer vision, especially the processing of camera-based image information. Based on these advances, this work aims to present state-of-the-art methods in the area of data-based point cloud processing, as well as novel techniques that are applied to landmark-based self-localization. First, this thesis introduces the Point Transformer network architecture, a general method that processes geometric information from three-dimensional point clouds and learns shape and local dependencies. A novel sorting module is presented, which learns a latent feature representation of the input that induces permutation-invariance. Furthermore, the widespread attention mechanism is adapted to deal with the difficult task of processing arbitrary point sets. The network can be applied to solve common computer vision tasks, such as object classification or part segmentation. The second part of this thesis focuses on a deep neural network that adapts well-known and established point cloud processing architectures for vehicle self-localization. Here, two unstructured point sets represent the input, i.e., the landmarks and multi-modal measurements. The goal is to approximate the traditional self-localization task comprised of multiple subtasks such as measurement-to-landmark association and point cloud registration, using a permutation-invariant neural network that processes the landmarks and measurement sets to infer the vehicle's pose. Moreover, different improvements, a novel training strategy, and two system architectures that allow the deployment in real-world scenarios are presented. The methods are evaluated using a dataset creation pipeline that is able to generate automatically labeled data on the fly. Finally, the introduced Point Transformer approach is adapted for self-localization, where high-density lidar point clouds that contain semantic features in addition to geometric information are processed. Again, an automatically generated and annotated dataset is presented for this method that uses state-of-the-art lidar segmentation networks. The evaluation of all methods presented in this thesis is first performed in synthetically generated scenarios, allowing systematic analysis of different influences and interfering factors of the localization task. Subsequently, the methods are evaluated in experiments using real-world data acquired with an automatically operated vehicle. Compared to traditional filter-based localization algorithms, significant improvements in localization accuracy can be achieved, meeting the requirements for safe and reliable automated operation in urban environments., In den vergangenen Jahren haben neue Technologien und Algorithmen im Bereich der Fahrerassistenzsysteme einen starken Anstieg der Funktionalität und Einsatzbereiche ermöglicht, sodass bereits heute in bestimmten Szenarien und in gut strukturierten Umgebungen von geringer Komplexität wie zum Beispiel auf Autobahnen, ein weitestgehend automatisiertes Fahren von Serienfahrzeugen gewährleistet werden kann. Jedoch sind für den sicheren und robusten, voll automatisierten Betrieb in dynamischen Szenarien, beispielsweise in urbanen Bereichen, eine Vielzahl von aufeinander aufbauenden Softwaremodulen und komplexe Prozessketten erforderlich. Dabei ist die hochgenaue Bestimmung der Fahrzeugpose eine grundlegende Voraussetzung und ein essenzieller Bestandteil für die verlässliche und detaillierte Umgebungswahrnehmung, das Situationsverstehen, sowie die Handlungs- und Trajektorienplanung. Im Allgemeinen setzt sich die Fahrzeugpose aus einer zweidimensionalen Position und der Orientierung zusammen, die in einem globalen oder lokalen Koordinatensystem definiert sind. Um ein der aktuellen Situation angemessenes Fahrmanöver zu planen und durchzuführen, wird die Fahrzeupose mit einer Genauigkeit im Zentimeterbereich erwartet, welche durch handelsübliche GPS-Sensorik nicht gewährleistet werden kann. Aus diesem Grund wird die Fahrzeugpose mithilfe von Lokalisierungsalgorithmen geschätzt, indem Sensormessungen und statische Objekte aus einer digitalen Karte, auch Landmarken genannt, miteinander in Beziehung gesetzt werden. So lassen sich beispielsweise relevante Informationen für eine Kreuzung, die von den Sensoren nicht umfassend eingesehen und wahrgenommen werden kann, aus der digitalen Karte laden und für nachgelagerte Algorithmen zur Verfügung stellen. In der Literatur werden Lokalisierungsmethoden üblicherweise in verschiedene Kategorien untergliedert, wobei die Unterscheidung anhand der Darstellung der Karten- und Messinformationen durchgeführt wird. Diese Arbeit konzentriert sich dabei auf die Verarbeitung punktwolkenbasierter Eingangsdaten, was bedeutet, dass die Umgebung durch zwei- oder dreidimensionale, ungeordnete und unstrukturierte Punktmengen dargestellt wird. Weit verbreitet sind traditionelle filterbasierte Lokalisierungsmethoden, die multimodale Sensormessungen wie zum Beispiel Radar-, Kamera- oder Lidarmessungen, mit Informationen aus einer zuvor erstellten hochgenauen digitalen Karte abgleichen, um daraus die Pose abzuleiten. Dieser Prozess erfordert unter anderem einen Assoziationsalgorithmus für die Zuordnung von Messungen und Landmarken, der in der Regel durch heuristische oder manuell eingestellte Algorithmen implementiert wird. Tiefe neuronale Netze haben bereits viele Bereiche des maschinellen Sehens revolutioniert, insbesondere die Verarbeitung von Kamerabildern. Aufbauend auf diesen Fortschritten zielt diese Arbeit darauf ab, neuartige Verfahren im Gebiet der datenbasierten Punkwolkenverarbeitung vorzustellen und diese Methoden für die Selbslokalisierung von automatisierten Fahrzeugen anzupassen. Dafür wird zunächst die Point Transformer Netzwerkarchitektur vorgestellt, wobei es sich um eine allgemeine Methode zur Verarbeitung geometrischer und punktbasierter Eingangsdaten handelt, die lokale Abhängigkeiten zwischen individuellen Punkten berücksichtigt. Das Verfahren adaptiert den weitverbreiteten Attention Mechanismus, um die Verarbeitung von unstrukturierten Punkwolken zu ermöglichen und stellt ein neues Modul vor, welches eine permutationsinvariante Repräsentation der Eingangspunktwolke anhand von gelernten Kernpunkten generiert. Die Netzwerkarchitektur wird auf bekannten 3D Computer Vision Benchmarks evaluiert, wobei vielversprechende Ergebnisse erzielt werden. Der zweite Teil dieser Arbeit beschäftigt sich mit einem Framework aus tiefen neuronalen Netzen, welches etablierte Netzwerkarchitekturen zur Verarbeitung von Punktwolken für die Selbstlokalisierung von automatisierten Fahrzeugen adaptiert. Bei den Verfahren stellen zwei unstrukturierte Punktmengen den Eingang dar, die im Folgenden als Landmarken und Messungen bezeichnet werden. Das Ziel dabei ist es, die lernbasierten Ansätze an traditionelle Formulierungen des Lokalisierungsproblems anzupassen, welche die Lokalisierung in mehrere Teilaufgaben untergliedern. Hierzu gehört zum Beispiel die Assoziation von Landmarken und Messungen und die Registrierung von Punktwolken unter Verwendung eines permutationsinvarianten neuronalen Netzes, um die Pose des Fahrzeugs zu ermitteln. Darüber hinaus werden verschiedene Verbesserungen, neuartige Trainingsstrategien sowie zwei Systemarchitekturen vorgestellt, die den Einsatz der Methoden in realen Szenarien ermöglichen. Für die Evaluation wird eine Prozessierungspipeline vorgestellt, die automatisiert annotierte Daten generiert. Schließlich wird der vorgestellte Point Transformer Ansatz für die Selbstlokalisierung angepasst, wobei dichte Lidar-Punktwolken verarbeitet werden, die zusätzlich zu den geometrischen Informationen auch semantische Merkmale enthalten. Die Evaluierung aller in dieser Arbeit vorgestellten Methoden erfolgt zunächst in einer synthetischen Simulationsumgebung, wodurch eine systematische Analyse von verschiedenen Einflüssen und Störfaktoren auf die Lokalisierungsgenauigkeit ermöglicht wird. Anschließend werden die Verfahren mit realen Daten evaluiert. Im Vergleich zu traditionellen filterbasierten Lokalisierungsalgorithmen können signifikante Verbesserungen der Lokalisierungsgenauigkeit erzielt werden, die den Anforderungen an einen sicheren und zuverlässigen automatisierten Betrieb in urbanen Umgebungen gerecht wird., In reference to IEEE copyrighted material which is used with permission in this thesis, the IEEE does not endorse any of Ulm University’s products or services. Internal or personal use of this material is permitted. If interested in reprinting/republishing IEEE copyrighted material for advertising or promotional purposes or for creating new collective works for resale or redistribution, please go to http://www.ieee.org/ publications standards/publications/rights/rights_link.html to learn how to obtain a License from RightsLink.