Jüngste Fortschritte bei Large Vision–Language Models (LVLMs) haben starke cross-modale Vernunftfähigkeiten gezeigt, die neue Möglichkeiten für die Entscheidungsfindung im autonomen Fahren bieten. Bestehende End-to-End-Ansätze leiden jedoch noch unter begrenzter semantischer Konsistenz, schwacher Aufgabensteuerbarkeit und unzureichender Interpretierbarkeit. Um diese Herausforderungen zu adressieren, schlagen wir SemAlign-E2E (Semantic-Aligned End-to-End) vor, ein semantisch ausgerichtetes multimodales LVLM-Framework, das visuelle, LiDAR- und aufgabenorientierte textuelle Eingaben durch cross-modale Aufmerksamkeit vereinigt. Dieses Design ermöglicht End-to-End-Vernunft vom Szenenverständnis bis hin zur Generierung von hochrangigen Fahrbefehlen. Über strukturierte Steueranweisungen hinaus liefert das Framework auch natürliche Sprach-Erklärungen zur Verbesserung der Interpretierbarkeit. Wir führen umfangreiche Evaluierungen auf dem nuScenes-Datensatz und der CARLA-Simulationsplattform durch. Experimentelle Ergebnisse zeigen, dass SemAlign-E2E erhebliche Verbesserungen in Fahrstabilität, Sicherheit, Multi-Task-Generalisation und semantischem Verständnis erzielt und dabei konstant die aktuellen State-of-the-Art-Baselines übertrifft. Bemerkenswert zeigt das Framework überlegene Verhaltenskonsistenz und risikobewusste Entscheidungsfindung in komplexen Verkehrsszenarien. Diese Ergebnisse heben das Potenzial von LVLM-getriebener semantischer Vernunft für autonomes Fahren hervor und bieten einen skalierbaren Weg zu zukünftigen semantisch verbesserten End-to-End-Fahrsystemen.
Building similarity graph...
Analyzing shared references across papers
Loading...
Feng Peng
Shangju She
Zejian Deng
Machines
University of Hong Kong
Chinese University of Hong Kong
Wuhan University of Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Peng et al. (Wed,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/69730f78c8125b09b0d1f3d4 — DOI: https://doi.org/10.3390/machines14010125
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: