XYZ-Drive est un système de conduite autonome utilisant un modèle de langage visuel unique en entrée, prenant en compte une image de caméra frontale, une carte aérienne de 25 m x 25 m et un prochain point de cheminement, et fournissant en sortie la direction et la vitesse. Les jetons de point de cheminement prennent en charge les descriptions d'action et textuelles grâce à une couche d'attention croisée légère et ciblée qui met en évidence les zones d'image et de carte pertinentes. Les jetons fusionnés sont intégrés à un modèle LLaMA-3.2 11B partiellement optimisé. Sur le benchmark MD-NEX Outdoor-Driving, il atteint un taux de réussite de 95 % et un taux de réussite pondéré par la longueur du trajet (SPL) de 0,80, soit une amélioration de 15 % par rapport à PhysNav-DG, avec un nombre de collisions divisé par deux, et une efficacité significativement améliorée grâce à l'utilisation d'une seule branche. Nous démontrons cette amélioration des performances par 16 études d'ablation.