Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Vision-Language Fusion for Real-Time Autonomous Driving: Goal-Centered Cross-Attention of Camera, HD-Map, & Waypoints

Created by
  • Haebom

저자

Santosh Patapati, Trisanth Srinivasan, Murari Ambati

개요

XYZ-Drive는 단일 비전-언어 모델로, 전방 카메라 프레임, 25m x 25m 항공 지도, 그리고 다음 경유지를 입력받아 조향 및 속도를 출력하는 자율 주행 시스템입니다. 경유지 토큰이 관련 이미지 및 지도 패치를 강조하는 경량 목표 중심 교차 어텐션 레이어를 사용하여 행동 및 텍스트 설명을 모두 지원하며, 융합된 토큰은 부분적으로 미세 조정된 LLaMA-3.2 11B 모델에 입력됩니다. MD-NEX Outdoor-Driving 벤치마크에서 95%의 성공률과 0.80의 SPL(Success weighted by Path Length)을 달성하여 PhysNav-DG보다 15% 향상되고 충돌은 절반으로 줄였으며, 단일 분기만 사용하여 효율성을 크게 개선했습니다. 16가지 ablation study를 통해 성능 향상을 설명합니다.

시사점, 한계점

시사점:
비전, 경유지, 지도 정보의 조기 토큰 수준 융합을 통해 정확하고 투명하며 실시간 자율 주행이 가능함을 보여줍니다.
단일 비전-언어 모델을 사용하여 자율 주행의 정확성과 효율성을 동시에 향상시킬 수 있음을 입증합니다.
목표 중심 어텐션 메커니즘이 지도 정보를 효과적으로 통합하는 데 중요한 역할을 수행함을 보여줍니다.
특정 작업(자율 주행)에 VLM을 적용할 때 미세 조정의 중요성을 강조합니다.
한계점:
지도 해상도가 낮아지면(10cm에서 40cm로) 차선 가장자리가 흐릿해지고 충돌률이 증가합니다. 고해상도 지도의 필요성을 시사합니다.
모든 모달리티 (비전, 경유지, 지도) 중 하나라도 제거하면 성공률이 최대 11% 감소하므로, 각 모달리티의 상호보완적인 역할에 대한 의존도가 높습니다. 모달리티 간의 견고성을 향상시킬 필요가 있습니다.
👍