每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

少即是多:精简而强大的自动驾驶视觉语言模型

Created by
  • Haebom

作者

杨盛、詹童、陈冠成、路彦峰、王健

Max-V1:基于语言的轨迹预测的端到端自动驾驶

大纲

在本研究中,我们用一种通用语言重新概念化了自动驾驶,并将轨迹规划任务形式化为预测下一个航点。Max-V1 是一种用于单步端到端自动驾驶的新型框架。它提出了一种与驾驶固有顺序性相匹配的单遍生成范式。该方法利用视觉语言模型 (VLM) 的生成能力,能够从前置摄像头输入直接进行端到端轨迹预测。该方法的有效性由源自统计建模的原则性监督策略支撑。这提供了一个明确的学习目标,使其非常适合通过从大规模专家演示中进行模仿学习来掌握复杂的驾驶策略。根据经验,该方法在 nuScenes 数据集上实现了最佳性能,与之前的基线相比总体提升了 30% 以上。此外,它在从各种车辆获取的跨域数据集上展现了卓越的泛化性能,展现了其在跨车辆鲁棒性和适应性方面的巨大潜力。这些实证优势通过引入一个能够实现基本驾驶行为的模型,为开发更强大的自动驾驶代理奠定了基础。代码将随出版物一起提供。

Takeaways, Limitations

使用单次生成范式解决自动驾驶问题。
我们提出了一个端到端框架,使用 VLM 直接从前向摄像头输入执行轨迹预测。
在 NuScenes 数据集上取得了最先进的性能,比现有方法提高了 30% 以上。
在跨域数据集上表现出优异的泛化性能,展现了跨车辆的鲁棒性和适应性。
为模型开发奠定基础(代码即将发布)。
论文中没有具体提及Limitations。
👍