Bài báo này trình bày MaRVL-QA, một chuẩn mực mới để đánh giá khả năng suy luận toán học và không gian của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM). MaRVL-QA được thiết kế để đánh giá khả năng suy luận thuần túy, không có nhiễu ngữ nghĩa, bằng cách sử dụng các biểu đồ bề mặt toán học. Nó bao gồm hai nhiệm vụ mới: tính toán tôpô, xác định và liệt kê các đặc điểm như cực đại cục bộ, và nhận dạng phép biến đổi, nhận dạng các phép biến đổi hình học. Kết quả thực nghiệm cho thấy ngay cả các MLLM tiên tiến nhất cũng có xu hướng dựa vào các phép suy luận hời hợt thay vì suy luận không gian mạnh mẽ. MaRVL-QA sẽ đóng góp vào nghiên cứu nhằm cải thiện khả năng suy luận của MLLM.