February 22, 2024

Zero-Shot Objektnavigation mit Vision-Language Foundation Models und Reasoning

Key Points

Key points are not available for this paper at this time.

Abstract

Diese Forschung stellt eine neuartige Methode für Zero-Shot-Objektnavigation vor, die es Agenten ermöglicht, unbekannte Umgebungen zu erkunden. Unser Ansatz unterscheidet sich von traditionellen Methoden, die in neuen Umgebungen oft versagen, da sie auf große Navigationsdatensätze für das Training angewiesen sind. Wir nutzen Large Vision Language Models (LVLMs), um Agenten zu helfen, unbekannte visuelle Umgebungen ohne Vorerfahrung zu verstehen und sich darin zu bewegen. Der Prozess beinhaltet die Verwendung eines vortrainierten LVLM zur Objekterkennung, um eine semantische Karte zu erstellen, gefolgt vom erneuten Einsatz des LVLM zur Vorhersage des wahrscheinlichen Standorts des Zielobjekts. Unsere Experimente auf dem RoboTHOR-Benchmark zeigen eine verbesserte Leistung mit einer Steigerung der Erfolgsrate und des Success Weighted by Path Length (SPL) um 1,8 % im Vergleich zur bisher besten Methode, ESC.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shuaihang Yuan

Muhammad Shafique

Mohamed Baghdadi

Actions

Institutions

New York University

Centre for Artificial Intelligence and Robotics

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Zero-Shot Objektnavigation mit Vision-Language Foundation Models und Reasoning

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider