在本研究中,我们用一种通用语言重新概念化了自动驾驶,并将轨迹规划任务形式化为预测下一个航点。Max-V1 是一种用于单步端到端自动驾驶的新型框架。它提出了一种与驾驶固有顺序性相匹配的单遍生成范式。该方法利用视觉语言模型 (VLM) 的生成能力,能够从前置摄像头输入直接进行端到端轨迹预测。该方法的有效性由源自统计建模的原则性监督策略支撑。这提供了一个明确的学习目标,使其非常适合通过从大规模专家演示中进行模仿学习来掌握复杂的驾驶策略。根据经验,该方法在 nuScenes 数据集上实现了最佳性能,与之前的基线相比总体提升了 30% 以上。此外,它在从各种车辆获取的跨域数据集上展现了卓越的泛化性能,展现了其在跨车辆鲁棒性和适应性方面的巨大潜力。这些实证优势通过引入一个能够实现基本驾驶行为的模型,为开发更强大的自动驾驶代理奠定了基础。代码将随出版物一起提供。