What question did this study set out to answer?

Ziel der Studie ist es, die Entscheidungsfindung im autonomen Fahren durch ein semantisch ausgerichtetes multimodales Framework zu verbessern.

January 23, 2026Open Access

Semantisch ausgerichtetes multimodales Vision-Sprach-Framework für Entscheidungsfindung beim autonomen Fahren

Key Points

Ziel der Studie ist es, die Entscheidungsfindung im autonomen Fahren durch ein semantisch ausgerichtetes multimodales Framework zu verbessern.
Vorgeschlagenes SemAlign-E2E-Framework integriert visuelle, LiDAR- und textuelle Eingaben.
Verwendete cross-modale Aufmerksamkeit für Szenenverständnis und Befehlsgenerierung.
Durchgeführte Evaluierungen auf dem nuScenes-Datensatz und der CARLA-Simulationsplattform.
Erzielte Verbesserungen in Fahrstabilität und Sicherheit.
Zeigte Multi-Task-Generalisation und semantisches Verständnis.
Übertraf State-of-the-Art-Methoden in komplexen Verkehrsszenarien.

Abstract

Jüngste Fortschritte bei Large Vision–Language Models (LVLMs) haben starke cross-modale Vernunftfähigkeiten gezeigt, die neue Möglichkeiten für die Entscheidungsfindung im autonomen Fahren bieten. Bestehende End-to-End-Ansätze leiden jedoch noch unter begrenzter semantischer Konsistenz, schwacher Aufgabensteuerbarkeit und unzureichender Interpretierbarkeit. Um diese Herausforderungen zu adressieren, schlagen wir SemAlign-E2E (Semantic-Aligned End-to-End) vor, ein semantisch ausgerichtetes multimodales LVLM-Framework, das visuelle, LiDAR- und aufgabenorientierte textuelle Eingaben durch cross-modale Aufmerksamkeit vereinigt. Dieses Design ermöglicht End-to-End-Vernunft vom Szenenverständnis bis hin zur Generierung von hochrangigen Fahrbefehlen. Über strukturierte Steueranweisungen hinaus liefert das Framework auch natürliche Sprach-Erklärungen zur Verbesserung der Interpretierbarkeit. Wir führen umfangreiche Evaluierungen auf dem nuScenes-Datensatz und der CARLA-Simulationsplattform durch. Experimentelle Ergebnisse zeigen, dass SemAlign-E2E erhebliche Verbesserungen in Fahrstabilität, Sicherheit, Multi-Task-Generalisation und semantischem Verständnis erzielt und dabei konstant die aktuellen State-of-the-Art-Baselines übertrifft. Bemerkenswert zeigt das Framework überlegene Verhaltenskonsistenz und risikobewusste Entscheidungsfindung in komplexen Verkehrsszenarien. Diese Ergebnisse heben das Potenzial von LVLM-getriebener semantischer Vernunft für autonomes Fahren hervor und bieten einen skalierbaren Weg zu zukünftigen semantisch verbesserten End-to-End-Fahrsystemen.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Feng Peng

Shangju She

Zejian Deng

Journals

Machines

Actions

Institutions

University of Hong Kong

Chinese University of Hong Kong

Wuhan University of Technology

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Semantisch ausgerichtetes multimodales Vision-Sprach-Framework für Entscheidungsfindung beim autonomen Fahren

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider