Bài báo này trình bày NuPlanQA-Eval, một chuẩn mực mới để đánh giá khả năng hiểu bối cảnh lái xe của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) và tập dữ liệu quy mô lớn NuPlanQA-1M. NuPlanQA-1M bao gồm 1 triệu cặp câu hỏi-trả lời trực quan (VQA) thực tế, được phân loại thành chín nhiệm vụ phụ thuộc vào ba kỹ năng cốt lõi: nhận dạng môi trường đường bộ, nhận dạng mối quan hệ không gian và lập luận vị kỷ. Hơn nữa, chúng tôi đề xuất BEV-LLM, tích hợp các đặc điểm góc nhìn từ trên xuống (BEV) từ hình ảnh đa góc nhìn vào MLLM, chứng minh rằng các MLLM thông thường gặp khó khăn trong việc điều khiển nhận dạng bối cảnh cụ thể và lập luận không gian từ các góc nhìn vị kỷ. BEV-LLM vượt trội hơn các mô hình khác ở sáu trong số chín nhiệm vụ phụ, chứng minh rằng việc kết hợp BEV cải thiện hiệu suất của các MLLM đa góc nhìn. Tập dữ liệu NuPlanQA được công khai.