Cet article présente NuPlanQA-Eval, un nouveau benchmark pour évaluer les capacités de compréhension des scènes de conduite des modèles linguistiques multimodaux à grande échelle (MLLM), ainsi que l'ensemble de données à grande échelle NuPlanQA-1M. NuPlanQA-1M se compose d'un million de paires de questions-réponses visuelles (VQA) du monde réel, classées en neuf sous-tâches couvrant trois compétences clés : la reconnaissance de l'environnement routier, la reconnaissance des relations spatiales et le raisonnement égocentrique. De plus, nous proposons BEV-LLM, qui intègre des caractéristiques de vue aérienne (BEV) issues d'images multi-vues dans les MLLM, démontrant ainsi que les MLLM conventionnels peinent à reconnaître les scènes de conduite spécifiques et à raisonner spatialement à partir de perspectives égocentriques. BEV-LLM surpasse les autres modèles dans six des neuf sous-tâches, démontrant que l'intégration de BEV améliore les performances des MLLM multi-vues. L'ensemble de données NuPlanQA est accessible au public.