每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

VLM-E2E:通过多模式驾驶员注意力融合增强端到端自动驾驶

Created by
  • Haebom

作者

刘沛、刘海鹏、刘海超、刘鑫、倪金鑫、马骏

大纲

本文提出了一个基于视觉语言模型 (VLM) 的全新框架——VLM-E2E,旨在提升自动驾驶系统的性能。为了解决现有自动驾驶系统在将二维观测数据转换为三维空间时丢失重要语义信息的问题,我们利用 VLM 卓越的场景理解和推理能力,通过提供注意力增强的语义信息来增强学习效果。具体而言,我们将文本表征融入鸟瞰图 (BEV) 特征中,以提供语义监督,并通过 BEV-Text 可学习权重融合策略解决模态间不平衡问题,从而有效利用视觉和文本模态的互补信息。使用 nuScenes 数据集的实验结果表明,与现有的端到端模型相比,识别、预测和规划性能均有显著提升,充分证明了注意力增强型 BEV 表征的有效性。

Takeaways, Limitations

Takeaways:
我们证明 VLM 可用于增强自动驾驶系统的注意力集中语义信息学习。
通过BEV-Text加权融合策略有效解决模式间不平衡问题。
通过提高感知、预测和规划性能,它为实现更准确、更稳定的自动驾驶提供了可能性。
通过模仿人类的驾驶行为来提高复杂环境中的自动驾驶性能。
Limitations:
需要进一步研究来评估所提出方法的泛化性能(需要在各种数据集和环境上进行性能验证)。
应考虑VLM的计算成本和实时处理能力。
BEV-Text加权融合策略的最优参数设置还有待进一步研究。
需要进一步研究以减少对特定数据集的依赖。
👍