September 28, 2025Open Access

ViLaD: Ein großes Vision Language Diffusion Framework für End-to-End autonomes Fahren

Key Points

ViLaD erzielt eine deutlich verbesserte Planungsgenauigkeit in autonomen Fahrsystemen und übertrifft traditionelle Modelle.
Das Framework reduziert die Inferenzlatenz durch parallele Generierung von Entscheidungssequenzen und erhöht so die Reaktionsfähigkeit.
Die Bewertung anhand des nuScenes-Datensatzes belegt die Überlegenheit von ViLaD gegenüber autoregressiven Basismodellen in praktischen Anwendungen.
Die Einsatzprüfung in der realen Welt bestätigt die Wirksamkeit von ViLaD bei der Durchführung komplexer Aufgaben wie interaktivem Parken in autonomen Fahrzeugen.

Abstract

End-to-End autonome Fahrsysteme, die auf Vision Language Modellen (VLMs) basieren, haben großes Potenzial gezeigt, doch ihre Abhängigkeit von autoregressiven Architekturen bringt einige Einschränkungen für Anwendungen in der realen Welt mit sich. Der sequenzielle, Token-für-Token-Generierungsprozess dieser Modelle führt zu hoher Inferenzlatenz und erlaubt kein bidirektionales Schließen, was sie für dynamische, sicherheitskritische Umgebungen ungeeignet macht. Um diese Herausforderungen zu überwinden, stellen wir ViLaD vor, ein neuartiges Large Vision Language Diffusion (LVLD) Framework für End-to-End autonomes Fahren, das einen Paradigmenwechsel darstellt. ViLaD nutzt ein maskiertes Diffusionsmodell, das die parallele Generierung ganzer Fahraufführungssequenzen ermöglicht und die Rechenlatenz deutlich reduziert. Darüber hinaus unterstützt seine Architektur bidirektionales Schließen, sodass das Modell Vergangenheit und Zukunft gleichzeitig berücksichtigen kann, und ermöglicht eine progressive Easy-First-Generierung zur iterativen Verbesserung der Entscheidungsqualität. Wir führen umfassende Experimente auf dem nuScenes-Datensatz durch, bei denen ViLaD sowohl in der Planungsgenauigkeit als auch in der Inferenzgeschwindigkeit die modernsten autoregressiven VLM-Basismodelle übertrifft und gleichzeitig eine nahezu fehlerfreie Rate erreicht. Ferner demonstrieren wir die praktische Anwendbarkeit des Frameworks durch eine reale Implementierung in einem autonomen Fahrzeug für eine interaktive Parkaufgabe, die dessen Effektivität und Zuverlässigkeit für praktische Anwendungen bestätigt.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Can Cui

Yupeng Zhou

Juntong Peng

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

ViLaD: Ein großes Vision Language Diffusion Framework für End-to-End autonomes Fahren

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider