People can describe spatial scenes with language and, vice versa, create images based on linguistic descriptions. However, current systems do not even come close to matching the complexity of humans when it comes to reconstructing a scene from a given text. Even the ever-advancing development of better and better Transformer-based models has not been able to achieve this so far. This task, the automatic generation of a 3D scene based on an input text, is called text-to-3D scene generation. The key challenge, and focus of this dissertation, now relate to the following topics: (a) Analyses of how well current language models understand spatial information, how static embeddings compare, and whether they can be improved by anaphora resolution. (b) Automated resource generation for context expansion and grounding that can help in the creation of realistic scenes. (c) Creation of a VR-based text-to-3D scene system that can be used as an annotation and active-learning environment, but can also be easily extended in a modular way with additional features to solve more contexts in the future. (d) Analyze existing practices and tools for digital and virtual teaching, learning, and collaboration, as well as the conditions and strategies in the context of VR. In the first part of this work, we could show that static word embeddings do not benefit significantly from pronoun substitution. We explain this result by the loss of contextual information, the reduction in the relative occurrence of rare words, and the absence of pronouns to be substituted. But we were able to we have shown that both static and contextualizing language models appear to encode object knowledge, but require a sophisticated apparatus to retrieve it. The models themselves in combination with the measures differ greatly in terms of the amount of knowledge they allow to extract. Classifier-based variants perform significantly better than the unsupervised methods from bias research, but this is also due to ov, Menschen können räumliche Szenen mit Sprache beschreiben und umgekehrt Bilder auf der Grundlage von sprachlichen Beschreibungen erzeugen. Aktuelle Systeme kommen jedoch nicht einmal annähernd an die Komplexität von Menschen heran, wenn es darum geht, eine Szene aus einem gegebenen Text zu rekonstruieren. Auch die immer weiter fortschreitende Entwicklung immer besserer Transformator-basierter Modelle konnte dies bisher nicht leisten. Diese Aufgabe, die automatische Generierung einer 3D-Szene auf der Grundlage eines Eingabetextes, wird text-to-3D scene-Generierung genannt. Die zentrale Herausforderung und der Schwerpunkt dieser Dissertation beziehen sich nun auf die folgenden Themen: (a) Analysen, wie gut aktuelle Sprachmodelle räumliche Informationen verstehen, wie statische Einbettungen im Vergleich dazu abschneiden und ob sie durch Anaphora-Auflösung verbessert werden können. (b) Automatisierte Ressourcengenerierung für Kontexterweiterung und Erdung, die bei der Erstellung realistischer Szenen helfen können. (c) Schaffung eines VR-basierten text-to-3D scene-Systems, das als Annotations- und Active-Learning-Umgebung verwendet werden kann, aber auch leicht auf modulare Weise mit zusätzlichen Funktionen erweitert werden kann, um in Zukunft weitere Kontexte zu lösen. (d) Analysieren Sie bestehende Praktiken und Werkzeuge für digitales und virtuelles Lehren, Lernen und Kollaboration sowie die Bedingungen und Strategien im Kontext von VR. Im ersten Teil dieser Arbeit konnten wir zeigen, dass statische Worteinbettungen nicht wesentlich von der Pronomenersetzung profitieren. Wir erklären dieses Ergebnis durch den Verlust von Kontextinformationen, die Verringerung des relativen Vorkommens seltener Wörter und das Fehlen von Pronomen, die ersetzt werden müssen. Wir konnten jedoch zeigen, dass sowohl statische als auch kontextualisierende Sprachmodelle Objektwissen zu kodieren scheinen, aber einen ausgeklügelten Apparat benötigen, um es abzurufen. Die Modelle selbst in Kombina