XYZ-Drive là một hệ thống lái xe tự động sử dụng một mô hình ngôn ngữ thị giác duy nhất làm đầu vào, lấy khung hình camera hướng về phía trước, bản đồ trên không 25m x 25m và điểm dừng tiếp theo làm đầu vào, và đầu ra là lái và tốc độ. Mã thông báo điểm dừng hỗ trợ cả mô tả hành động và văn bản bằng cách sử dụng lớp chú ý chéo nhẹ, tập trung vào mục tiêu làm nổi bật các mảng hình ảnh và bản đồ có liên quan và các mã thông báo đã hợp nhất được đưa vào mô hình LLaMA-3.2 11B được tinh chỉnh một phần. Trên điểm chuẩn MD-NEX Outdoor-Driving, hệ thống đạt tỷ lệ thành công 95% và tỷ lệ thành công 0,80 được tính theo độ dài đường dẫn (SPL), cải thiện 15% so với PhysNav-DG, với một nửa số vụ va chạm và hiệu quả được cải thiện đáng kể bằng cách chỉ sử dụng một nhánh duy nhất. Chúng tôi chứng minh sự cải thiện hiệu suất này thông qua 16 nghiên cứu cắt bỏ.