XYZ-ड्राइव एक स्वचालित ड्राइविंग सिस्टम है जो एकल विज़न-लैंग्वेज मॉडल को इनपुट के रूप में उपयोग करता है, एक आगे की ओर देखने वाले कैमरा फ्रेम, एक 25 मीटर x 25 मीटर का हवाई मानचित्र और एक अगला वेपॉइंट इनपुट के रूप में लेता है, और स्टीयरिंग और गति आउटपुट करता है। वेपॉइंट टोकन एक हल्के, लक्ष्य-केंद्रित क्रॉस-अटेंशन लेयर का उपयोग करके क्रिया और पाठ्य विवरण, दोनों का समर्थन करते हैं जो प्रासंगिक छवि और मानचित्र पैच को हाइलाइट करता है, और फ़्यूज़ किए गए टोकन को आंशिक रूप से फ़ाइन-ट्यून्ड LLaMA-3.2 11B मॉडल में फीड किया जाता है। MD-NEX आउटडोर-ड्राइविंग बेंचमार्क पर, यह 95% सफलता दर और पथ लंबाई (SPL) द्वारा भारित 0.80 सफलता प्राप्त करता है, जो PhysNav-DG की तुलना में 15% सुधार है, जिसमें टकरावों की संख्या आधी है, और केवल एक ही शाखा का उपयोग करके दक्षता में उल्लेखनीय सुधार हुआ है। हम 16 एब्लेशन अध्ययनों के माध्यम से इस प्रदर्शन सुधार को प्रदर्शित करते हैं।