Bài báo này đề cập đến những hạn chế của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) trong việc thực hiện các nhiệm vụ nhận thức tinh tế. Chúng tôi trình bày một chuẩn mực mới, HueManity, bao gồm 83.850 hình ảnh chứa các chuỗi chữ số hai ký tự theo mẫu chấm kiểu Ishihara. Chín MLLM tiên tiến đã được đánh giá trên HueManity và cho thấy sự suy giảm hiệu suất đáng kể so với con người và các mô hình cơ sở thị giác máy tính hiện có. MLLM hiệu suất cao nhất đạt độ chính xác 33,6% trong nhiệm vụ dựa trên chữ số "dễ" và độ chính xác 3% trong nhiệm vụ chữ số "khó", trong khi người tham gia đạt điểm gần như hoàn hảo (100% và 95,6%), và mô hình ResNet50 được tinh chỉnh đạt độ chính xác lần lượt là 96,5% và 94,5%. Điều này làm nổi bật một khoảng cách đáng kể về khả năng thị giác của các MLLM hiện tại. Chúng tôi cũng phân tích các yếu tố tiềm ẩn về mô hình đào tạo và kiến trúc góp phần tạo nên khoảng cách nhận thức trong MLLM và phát hành bộ dữ liệu và mã HueManity để thúc đẩy nghiên cứu sâu hơn về việc cải thiện tính mạnh mẽ về nhận thức của MLLM.