XYZ-Drive es un sistema de conducción autónoma que utiliza un único modelo de visión y lenguaje como entrada. Toma como entrada un encuadre de cámara frontal, un mapa aéreo de 25 m x 25 m y el siguiente punto de referencia, y genera como salida la dirección y la velocidad. Los tokens de punto de referencia admiten acciones y descripciones textuales mediante una capa ligera de atención cruzada centrada en el objetivo que resalta las imágenes y los parches de mapa relevantes. Los tokens fusionados se incorporan a un modelo LLaMA-3.2 11B parcialmente optimizado. En la prueba de referencia MD-NEX Outdoor-Driving, alcanza una tasa de éxito del 95 % y un 0,80 de éxito ponderado por la longitud de trayectoria (SPL), lo que supone una mejora del 15 % respecto a PhysNav-DG, con la mitad de colisiones y una eficiencia significativamente mejorada al usar una sola rama. Demostramos esta mejora del rendimiento mediante 16 estudios de ablación.