Key points are not available for this paper at this time.
Diese Forschung stellt eine neuartige Methode für Zero-Shot-Objektnavigation vor, die es Agenten ermöglicht, unbekannte Umgebungen zu erkunden. Unser Ansatz unterscheidet sich von traditionellen Methoden, die in neuen Umgebungen oft versagen, da sie auf große Navigationsdatensätze für das Training angewiesen sind. Wir nutzen Large Vision Language Models (LVLMs), um Agenten zu helfen, unbekannte visuelle Umgebungen ohne Vorerfahrung zu verstehen und sich darin zu bewegen. Der Prozess beinhaltet die Verwendung eines vortrainierten LVLM zur Objekterkennung, um eine semantische Karte zu erstellen, gefolgt vom erneuten Einsatz des LVLM zur Vorhersage des wahrscheinlichen Standorts des Zielobjekts. Unsere Experimente auf dem RoboTHOR-Benchmark zeigen eine verbesserte Leistung mit einer Steigerung der Erfolgsrate und des Success Weighted by Path Length (SPL) um 1,8 % im Vergleich zur bisher besten Methode, ESC.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shuaihang Yuan
Muhammad Shafique
Mohamed Baghdadi
New York University
Centre for Artificial Intelligence and Robotics
Building similarity graph...
Analyzing shared references across papers
Loading...
Yuan et al. (Do,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e781e8b6db6435876f4b8d — DOI: https://doi.org/10.1109/icara60736.2024.10553173
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: