智能驾驶大模型融合了视觉、语言与动作多模态学习,正引领自动驾驶从传统“感知—规划—控制”架构向端到端一体化演进。其统一表征、生成式推理及少样本泛化的能力,显著提升了智能驾驶系统的鲁棒性与决策智能。报告首先系统梳理了国际国内智能驾驶大模型领域的最新进展,包括决策规划、环境感知、视觉问答、数据生成等方面。其中,决策规划部分讨论了端到端可解释决策模型的兴起、多模态与序列化决策模型的融合以及世界模型与认知智能体的引入;环境感知部分从多模态感知与语义解释的融合、语言提示驱动的运动轨迹预测与行为理解两条主线出发进行探讨;视觉问答部分讨论了国内外研究者针对推理可解释性与决策验证提出的系列方法;数据生成部分则以数据来源为区分,探讨自动标注、生成式数据合成、世界模型、虚实一体仿真等手段如何解决自动驾驶数据收集成本高、长尾场景覆盖率不足的问题。在此基础上进行横向对比,分析了我国在数据资源、算力生态、算法创新与标准体系方面的优势与短板。面向未来,提出应强化基础研究与公共底座、完善可信AI评测体系、推进个性化驾驶与人机对齐、构建自主可控生态等建议。智能驾驶大模型已成为我国汽车产业高质量发展的关键突破口与人工智能应用的新高地。本文提及的算法及相关开源代码已汇总至:https://github.com/Ruisong-Yan/Intelligent-Driving-Foundation-Model,亦可通过https://www.scidb.cn/detail?dataSetId=3921ce7e24e44cf98428e3bc1494c410 获取。
Jianfang et al. (Thu,) studied this question.