Bài báo này đề cập đến vấn đề thiếu hụt khả năng đếm đối tượng trong các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM). Chúng tôi nêu bật những hạn chế của các chuẩn mực hiện có (mật độ đối tượng thấp và vùng thị giác hạn chế) và đề xuất CountQA, một chuẩn mực mới để đánh giá hiệu suất đếm đối tượng của MLLM trong điều kiện thực tế. CountQA bao gồm hơn 1.500 cặp câu hỏi-trả lời chứa các hình ảnh thực tế với mật độ đối tượng, độ nhiễu và độ che khuất cao. Đánh giá 15 MLLM hàng đầu bằng CountQA cho thấy mô hình hiệu suất tốt nhất chỉ đạt độ chính xác 42,9%, với hiệu suất giảm dần khi số lượng đối tượng tăng lên. CountQA cung cấp một chuẩn mực chuyên dụng để chẩn đoán và cải thiện khả năng đếm đối tượng của MLLM, đặt nền tảng cho sự phát triển của MLLM thế hệ tiếp theo không chỉ thông thạo về mặt kỹ thuật mà còn chính xác về mặt số học và nhận thức không gian.