Key points are not available for this paper at this time.
Dieses Papier stellt Scene-LLM vor, ein 3D-visuelles Sprachmodell, das die Fähigkeiten verkörperter Agenten in interaktiven 3D-Innenumgebungen durch Integration der Schlussfolgerungsstärken von Large Language Models (LLMs) verbessert. Scene-LLM verwendet eine hybride 3D-visuelle Merkmalsrepräsentation, die dichte räumliche Informationen einbindet und die Aktualisierung des Szenenzustands unterstützt. Das Modell nutzt eine Projektionsschicht, um diese Merkmale effizient im vortrainierten textuellen Einbettungsraum abzubilden und so eine effektive Interpretation 3D-visueller Informationen zu ermöglichen. Einzigartig an unserem Ansatz ist die Integration sowohl von szenenebenen als auch egozentrischen 3D-Informationen. Diese Kombination ist entscheidend für interaktive Planung, wobei szenenebene Daten die globale Planung unterstützen und egozentrische Daten für die Lokalisierung wichtig sind. Bemerkenswert ist, dass wir egozentrische 3D-Rahmenmerkmale zur Merkmalsausrichtung verwenden, eine effiziente Technik, die die Fähigkeit des Modells verbessert, Merkmale kleiner Objekte in der Szene auszurichten. Unsere Experimente mit Scene-LLM zeigen dessen starke Fähigkeiten in dichter Beschriftung, Fragebeantwortung und interaktiver Planung. Wir sind der Ansicht, dass Scene-LLM das Feld des 3D-visuellen Verständnisses und der Schlussfolgerung voranbringt und neue Möglichkeiten für anspruchsvolle Agenteninteraktionen in Innenräumen bietet.
Building similarity graph...
Analyzing shared references across papers
Loading...
Rao Fu
Jingyu Liu
Xilun Chen
Building similarity graph...
Analyzing shared references across papers
Loading...
Fu et al. (Sun,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e73a87b6db6435876b41a9 — DOI: https://doi.org/10.48550/arxiv.2403.11401