End-to-End autonome Fahrsysteme, die auf Vision Language Modellen (VLMs) basieren, haben großes Potenzial gezeigt, doch ihre Abhängigkeit von autoregressiven Architekturen bringt einige Einschränkungen für Anwendungen in der realen Welt mit sich. Der sequenzielle, Token-für-Token-Generierungsprozess dieser Modelle führt zu hoher Inferenzlatenz und erlaubt kein bidirektionales Schließen, was sie für dynamische, sicherheitskritische Umgebungen ungeeignet macht. Um diese Herausforderungen zu überwinden, stellen wir ViLaD vor, ein neuartiges Large Vision Language Diffusion (LVLD) Framework für End-to-End autonomes Fahren, das einen Paradigmenwechsel darstellt. ViLaD nutzt ein maskiertes Diffusionsmodell, das die parallele Generierung ganzer Fahraufführungssequenzen ermöglicht und die Rechenlatenz deutlich reduziert. Darüber hinaus unterstützt seine Architektur bidirektionales Schließen, sodass das Modell Vergangenheit und Zukunft gleichzeitig berücksichtigen kann, und ermöglicht eine progressive Easy-First-Generierung zur iterativen Verbesserung der Entscheidungsqualität. Wir führen umfassende Experimente auf dem nuScenes-Datensatz durch, bei denen ViLaD sowohl in der Planungsgenauigkeit als auch in der Inferenzgeschwindigkeit die modernsten autoregressiven VLM-Basismodelle übertrifft und gleichzeitig eine nahezu fehlerfreie Rate erreicht. Ferner demonstrieren wir die praktische Anwendbarkeit des Frameworks durch eine reale Implementierung in einem autonomen Fahrzeug für eine interaktive Parkaufgabe, die dessen Effektivität und Zuverlässigkeit für praktische Anwendungen bestätigt.
Building similarity graph...
Analyzing shared references across papers
Loading...
Can Cui
Yupeng Zhou
Juntong Peng
Building similarity graph...
Analyzing shared references across papers
Loading...
Cui et al. (Mon,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68d913a34ddcf71ba560b9c0 — DOI: https://doi.org/10.48550/arxiv.2508.12603
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: