本文提出了一个基于视觉语言模型 (VLM) 的全新框架——VLM-E2E,旨在提升自动驾驶系统的性能。为了解决现有自动驾驶系统在将二维观测数据转换为三维空间时丢失重要语义信息的问题,我们利用 VLM 卓越的场景理解和推理能力,通过提供注意力增强的语义信息来增强学习效果。具体而言,我们将文本表征融入鸟瞰图 (BEV) 特征中,以提供语义监督,并通过 BEV-Text 可学习权重融合策略解决模态间不平衡问题,从而有效利用视觉和文本模态的互补信息。使用 nuScenes 数据集的实验结果表明,与现有的端到端模型相比,识别、预测和规划性能均有显著提升,充分证明了注意力增强型 BEV 表征的有效性。