Este artículo presenta NuPlanQA-Eval, un novedoso modelo de referencia para evaluar la capacidad de comprensión de la escena de conducción de los modelos de lenguaje multimodales a gran escala (MLLM), y el conjunto de datos a gran escala NuPlanQA-1M. NuPlanQA-1M consta de un millón de pares de preguntas y respuestas visuales (VQA) del mundo real, categorizados en nueve subtareas en tres habilidades fundamentales: reconocimiento del entorno vial, reconocimiento de relaciones espaciales y razonamiento egocéntrico. Además, proponemos BEV-LLM, que integra características de vista aérea (BEV) de imágenes multivista en MLLM, lo que demuestra que los MLLM convencionales tienen dificultades con el reconocimiento específico de la escena de conducción y el razonamiento espacial desde perspectivas egocéntricas. BEV-LLM supera a otros modelos en seis de las nueve subtareas, lo que demuestra que la incorporación de BEV mejora el rendimiento de los MLLM multivista. El conjunto de datos NuPlanQA está disponible públicamente.