यह शोधपत्र NuPlanQA-Eval प्रस्तुत करता है, जो बहुविधीय वृहत्-स्तरीय भाषा मॉडल (MLLM) की ड्राइविंग दृश्य समझ क्षमताओं के मूल्यांकन हेतु एक नवीन मानक है, और वृहत्-स्तरीय डेटासेट NuPlanQA-1M भी प्रस्तुत करता है। NuPlanQA-1M में 10 लाख वास्तविक-विश्व दृश्य प्रश्न-उत्तर (VQA) युग्म हैं, जिन्हें तीन मुख्य कौशलों के अंतर्गत नौ उप-कार्यों में वर्गीकृत किया गया है: सड़क परिवेश पहचान, स्थानिक संबंध पहचान, और आत्मकेंद्रित तर्क। इसके अलावा, हम BEV-LLM का प्रस्ताव करते हैं, जो बहु-दृश्य छवियों से विहंगम दृश्य (BEV) विशेषताओं को MLLM में एकीकृत करता है, यह दर्शाता है कि पारंपरिक MLLM, आत्मकेंद्रित दृष्टिकोणों से ड्राइविंग दृश्य-विशिष्ट पहचान और स्थानिक तर्क के साथ संघर्ष करते हैं। BEV-LLM नौ में से छह उप-कार्यों में अन्य मॉडलों से बेहतर प्रदर्शन करता है, यह दर्शाता है कि BEV को शामिल करने से बहु-दृश्य MLLM का प्रदर्शन बेहतर होता है। NuPlanQA डेटासेट सार्वजनिक रूप से उपलब्ध है।