본 논문은 다중 모드 대규모 언어 모델(MLLM)의 운전 장면 이해 능력을 평가하기 위한 다중 뷰, 다중 모드 평가 벤치마크인 NuPlanQA-Eval을 제시한다. 기존 MLLM들이 다양한 영역에서 강력한 성능을 보이지만, 다중 뷰 정보를 포함하는 운전 시나리오의 복잡성으로 인해 운전 장면 이해에는 어려움을 겪는다는 점에 착안하여, 1백만 개의 실제 세계 시각적 질의응답(VQA) 쌍으로 구성된 대규모 데이터셋 NuPlanQA-1M을 함께 제안한다. 데이터셋은 도로 환경 인식, 공간 관계 인식, 자기 중심 추론이라는 세 가지 핵심 기술에 걸쳐 9가지 하위 작업으로 분류된다. 또한, 다중 뷰 이미지에서 조감도(BEV) 특징을 MLLM에 통합한 BEV-LLM을 제시하고, 평가 결과를 통해 기존 MLLM이 운전 장면 특유의 인식과 자기 중심 관점에서의 공간 추론에 어려움을 겪는다는 것을 보여준다. BEV-LLM은 9가지 하위 작업 중 6가지에서 다른 모델들을 능가하는 성능을 보이며, BEV 통합이 다중 뷰 MLLM의 성능을 향상시키는 것을 입증한다. 연구를 더욱 촉진하기 위해 NuPlanQA를 공개한다.