Eine zunehmende Herausforderung in der mobilen Robotik ist die Abhängigkeit von komplexen grafischen Schnittstellen und starren Steuerungsketten, die die Zugänglichkeit für nicht-expert Benutzer einschränken. Diese Arbeit stellt ein latenzbewusstes Benchmarking-Framework vor, das die Navigation von Robotern mit natürlicher Sprache ermöglicht, indem mehrere große Sprachmodelle (LLMs) in den Robot Operating System 2 (ROS 2) Navigation 2 (Nav2)-Stack integriert werden. Das System erlaubt es Robotern, freie Textanweisungen zu interpretieren und darauf zu reagieren, wodurch traditionelle Mensch-Maschine-Schnittstellen (HMIs) durch konversationelle Interaktion ersetzt werden. Mithilfe einer simulierten TurtleBot4-Plattform in Gazebo Fortress haben wir eine vielfältige Auswahl zeitgenössischer LLMs, darunter GPT-3.5, GPT-4, GPT-5, Claude 3.7, Gemini 2.5, Mistral-7B Instruct, DeepSeek-R1 und LLaMA-3.3-70B, über drei lokale Planer hinweg bewertet, namentlich Dynamic Window Approach (DWB), Timed Elastic Band (TEB) und Regulated Pure Pursuit (RPP). Das Framework misst End-to-End-Antwortlatenz, Genauigkeit der Anweisungsanalyse, Pfadqualität und Erfolgsrate bei standardisierten Innenszenarien. Die Ergebnisse zeigen klare Kompromisse zwischen Latenz und Genauigkeit, wobei kleinere Modelle schneller reagieren, aber weniger räumliches Denken zeigen, während größere Modelle eine konsistentere Navigationsabsicht aufweisen, jedoch längere Reaktionszeiten haben. Das vorgeschlagene Framework ist das erste reproduzierbare Multi-LLM-System mit Multi-Planer-Bewertungen innerhalb von ROS 2 und unterstützt die Entwicklung intuitiver und latenz-effizienter natürlichsprachiger Schnittstellen für die Roboternavigation.
Daş et al. (Fri,) untersuchten diese Fragestellung.