What question did this study set out to answer?

Das Ziel ist es, ein Framework zu bewerten, das Robotern die Navigation mit natürlichsprachlichen Anweisungen über große Sprachmodelle ermöglicht.

January 18, 2026Open Access

Latenzbewusstes Benchmarking großer Sprachmodelle für die Navigation von Robotern mit natürlicher Sprache in ROS 2

Key Points

Das Ziel ist es, ein Framework zu bewerten, das Robotern die Navigation mit natürlichsprachlichen Anweisungen über große Sprachmodelle ermöglicht.
Entwicklung eines latenzbewussten Benchmarking-Frameworks im ROS 2 Navigation 2 Stack.
Integration mehrerer großer Sprachmodelle zur Bewertung.
Benchmarking durchgeführt mit einer simulierten TurtleBot4-Plattform.
Messung von End-to-End-Antwortlatenz, Genauigkeit der Anweisungsanalyse, Pfadqualität und Erfolgsrate der Aufgabe.
Kleinere Modelle bieten schnellere Antworten, aber geringere Genauigkeit bei der räumlichen Verarbeitung.
Größere Modelle zeigen eine bessere Konsistenz der Navigationsabsicht, weisen jedoch längere Reaktionszeiten auf.
Etablierung eines reproduzierbaren Multi-LLM-Systems mit Bewertungen über mehrere lokale Planer hinweg.

Abstract

Eine zunehmende Herausforderung in der mobilen Robotik ist die Abhängigkeit von komplexen grafischen Schnittstellen und starren Steuerungsketten, die die Zugänglichkeit für nicht-expert Benutzer einschränken. Diese Arbeit stellt ein latenzbewusstes Benchmarking-Framework vor, das die Navigation von Robotern mit natürlicher Sprache ermöglicht, indem mehrere große Sprachmodelle (LLMs) in den Robot Operating System 2 (ROS 2) Navigation 2 (Nav2)-Stack integriert werden. Das System erlaubt es Robotern, freie Textanweisungen zu interpretieren und darauf zu reagieren, wodurch traditionelle Mensch-Maschine-Schnittstellen (HMIs) durch konversationelle Interaktion ersetzt werden. Mithilfe einer simulierten TurtleBot4-Plattform in Gazebo Fortress haben wir eine vielfältige Auswahl zeitgenössischer LLMs, darunter GPT-3.5, GPT-4, GPT-5, Claude 3.7, Gemini 2.5, Mistral-7B Instruct, DeepSeek-R1 und LLaMA-3.3-70B, über drei lokale Planer hinweg bewertet, namentlich Dynamic Window Approach (DWB), Timed Elastic Band (TEB) und Regulated Pure Pursuit (RPP). Das Framework misst End-to-End-Antwortlatenz, Genauigkeit der Anweisungsanalyse, Pfadqualität und Erfolgsrate bei standardisierten Innenszenarien. Die Ergebnisse zeigen klare Kompromisse zwischen Latenz und Genauigkeit, wobei kleinere Modelle schneller reagieren, aber weniger räumliches Denken zeigen, während größere Modelle eine konsistentere Navigationsabsicht aufweisen, jedoch längere Reaktionszeiten haben. Das vorgeschlagene Framework ist das erste reproduzierbare Multi-LLM-System mit Multi-Planer-Bewertungen innerhalb von ROS 2 und unterstützt die Entwicklung intuitiver und latenz-effizienter natürlichsprachiger Schnittstellen für die Roboternavigation.

Latenzbewusstes Benchmarking großer Sprachmodelle für die Navigation von Robotern mit natürlicher Sprache in ROS 2

Key Points

Abstract

Cite This Study