XYZ-Drive는 단일 비전-언어 모델로, 전방 카메라 프레임, 25m x 25m 항공 지도, 그리고 다음 경유지를 입력받아 조향 및 속도를 출력하는 자율 주행 시스템입니다. 경유지 토큰이 관련 이미지 및 지도 패치를 강조하는 경량 목표 중심 교차 어텐션 레이어를 사용하여 행동 및 텍스트 설명을 모두 지원하며, 융합된 토큰은 부분적으로 미세 조정된 LLaMA-3.2 11B 모델에 입력됩니다. MD-NEX Outdoor-Driving 벤치마크에서 95%의 성공률과 0.80의 SPL(Success weighted by Path Length)을 달성하여 PhysNav-DG보다 15% 향상되고 충돌은 절반으로 줄였으며, 단일 분기만 사용하여 효율성을 크게 개선했습니다. 16가지 ablation study를 통해 성능 향상을 설명합니다.