V2X-VLM: End-to-End V2X Cooperative Autonomous Driving Through Large Vision-Language Models
Created by
Haebom
저자
Junwei You, Haotian Shi, Zhuoyu Jiang, Zilin Huang, Rui Gan, Keshu Wu, Xi Cheng, Xiaopeng Li, Bin Ran
개요
본 논문은 차량-모든 것(V2X) 협력을 기반으로 하는 새로운 종단간(E2E) 자율 주행 프레임워크인 V2X-VLM을 제안합니다. V2X-VLM은 차량 및 인프라의 다중 관점 카메라 뷰와 텍스트 기반 장면 설명을 통합하여 주행 환경에 대한 보다 포괄적인 이해를 가능하게 합니다. 대조 학습 기반 메커니즘을 사용하여 이기종 시각 및 텍스트 특징의 정렬을 강화하고, 지식 증류 전략을 사용하여 훈련을 안정화합니다. 실제 대규모 데이터셋에서의 실험 결과, V2X-VLM은 최첨단의 주행 경로 계획 정확도를 달성하여 기존의 협력 자율 주행 기준 모델에 비해 L2 오차와 충돌률을 크게 줄였습니다. 또한, 강건성 및 효율성 평가를 통해 실제 환경 배포의 실용성을 강조하여 자율 주행의 안전성 및 의사결정 향상을 보여줍니다.