Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

V2X-VLM: End-to-End V2X Cooperative Autonomous Driving Through Large Vision-Language Models

Created by
  • Haebom

저자

Junwei You, Haotian Shi, Zhuoyu Jiang, Zilin Huang, Rui Gan, Keshu Wu, Xi Cheng, Xiaopeng Li, Bin Ran

개요

본 논문은 차량-모든 것(V2X) 협력을 기반으로 하는 새로운 종단간(E2E) 자율 주행 프레임워크인 V2X-VLM을 제안합니다. V2X-VLM은 차량 및 인프라의 다중 관점 카메라 뷰와 텍스트 기반 장면 설명을 통합하여 주행 환경에 대한 보다 포괄적인 이해를 가능하게 합니다. 대조 학습 기반 메커니즘을 사용하여 이기종 시각 및 텍스트 특징의 정렬을 강화하고, 지식 증류 전략을 사용하여 훈련을 안정화합니다. 실제 대규모 데이터셋에서의 실험 결과, V2X-VLM은 최첨단의 주행 경로 계획 정확도를 달성하여 기존의 협력 자율 주행 기준 모델에 비해 L2 오차와 충돌률을 크게 줄였습니다. 또한, 강건성 및 효율성 평가를 통해 실제 환경 배포의 실용성을 강조하여 자율 주행의 안전성 및 의사결정 향상을 보여줍니다.

시사점, 한계점

시사점:
V2X 협력을 활용한 종단간 자율 주행 프레임워크 V2X-VLM 제시
시각 및 언어 모델(VLM)을 이용한 이기종 정보 융합 및 의미 이해 향상
대조 학습 및 지식 증류 전략을 통한 성능 향상 및 훈련 안정화
실제 대규모 데이터셋을 이용한 실험으로 최첨단 성능 및 실용성 검증
자율 주행 안전성 및 의사결정 향상에 기여
한계점:
실제 환경 적용에 대한 장기간 안정성 및 신뢰성 검증 필요
다양한 환경 및 상황에 대한 일반화 성능 평가 추가 필요
센서 오류나 악의적인 공격에 대한 강건성 개선 필요
계산 비용 및 에너지 효율성 개선 필요
데이터셋의 편향성 및 일반화 가능성에 대한 추가 분석 필요
👍