Bài báo này đề cập đến việc thiếu đánh giá nghiêm ngặt về sự liên kết của các mô hình đa phương thức quy mô lớn (LMM) với các giá trị lấy con người làm trung tâm (HC) (ví dụ: công bằng, đạo đức và tính bao hàm) và đề xuất một chuẩn mực mới, HumaniBench, để giải quyết vấn đề này. HumaniBench bao gồm 32.000 cặp câu hỏi-hình ảnh trong thế giới thực và một công cụ đánh giá, với các nhãn được tạo thông qua quy trình hỗ trợ AI và xác minh của chuyên gia. LMM được đánh giá trên nhiều nhiệm vụ VQA mở và đóng trên bảy nguyên tắc liên kết cốt lõi: công bằng, đạo đức, sự đồng cảm, tính bao hàm, suy luận, tính mạnh mẽ và đa ngôn ngữ. Kết quả chuẩn mực cho nhiều LMM khác nhau cho thấy các mô hình độc quyền thường vượt trội về suy luận, tính công bằng và đa ngôn ngữ, trong khi các mô hình nguồn mở lại vượt trội về tính mạnh mẽ và xây dựng nền tảng. Hầu hết các mô hình đều gặp khó khăn trong việc cân bằng độ chính xác với hành vi đạo đức và bao hàm. Các kỹ thuật như nhắc nhở Chuỗi suy nghĩ và điều chỉnh thời gian kiểm tra cải thiện sự liên kết. HumaniBench là chuẩn mực đầu tiên được thiết kế để căn chỉnh HC, cung cấp nền tảng thử nghiệm nghiêm ngặt để chẩn đoán các hạn chế và thúc đẩy phát triển LMM có trách nhiệm, với tất cả dữ liệu và mã đều có sẵn công khai để tái tạo.