Bài báo này đề cập đến những hạn chế của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) trong việc thực hiện các nhiệm vụ nhận thức tinh tế. Chúng tôi trình bày điểm chuẩn HueManity, bao gồm 83.850 hình ảnh chứa các chuỗi chữ số theo kiểu mẫu chấm Ishihara, để đánh giá khả năng nhận thức thị giác của MLLM. Chín MLLM tiên tiến được đánh giá trên HueManity và cho thấy chúng kém hiệu quả đáng kể so với cả mô hình cơ sở thị giác máy tính hiện có và của con người. MLLM có hiệu suất cao nhất đạt độ chính xác 33,6% đối với nhiệm vụ 'dễ' dựa trên chữ số và độ chính xác 3% đối với nhiệm vụ 'khó' chữ số, trong khi người tham gia đạt điểm gần như hoàn hảo (100% và 95,6%) và mô hình ResNet50 được tinh chỉnh đạt độ chính xác 96,5% và 94,5%. Điều này làm nổi bật một khoảng cách đáng kể trong khả năng thị giác của các MLLM hiện tại. Trong bài báo này, chúng tôi phân tích sâu hơn các yếu tố tiềm ẩn về mô hình đào tạo và kiến trúc góp phần tạo nên khoảng cách nhận thức trong MLLM và công khai bộ dữ liệu và mã HueManity cho mục đích nghiên cứu trong tương lai.