Cet article propose le cadre OccVLA pour pallier les limitations des modèles de langage multimodaux à grande échelle (MLLM), qui manquent de compréhension spatiale 3D pour la conduite autonome. OccVLA répond à deux défis majeurs : la difficulté de construire des représentations 3D efficaces sans annotation manuelle coûteuse, et la perte d'informations spatiales fines due à l'absence d'apprentissage d'un dictionnaire visuel 3D à grande échelle. Il apprend la structure spatiale fine directement à partir d'entrées visuelles 2D en utilisant des données d'occupation 3D denses comme sortie de prédiction et signaux de supervision. L'omission de l'étape de prédiction d'occupation lors de l'inférence n'altère pas les performances et n'entraîne aucune surcharge de calcul supplémentaire. Il atteint des performances de pointe en planification de trajectoire sur le benchmark nuScenes et démontre des performances supérieures sur une tâche de réponse visuelle à des questions 3D.