Các mô hình đa phương thức quy mô lớn (LMM) đã được thử nghiệm rộng rãi trong các nhiệm vụ như trả lời câu hỏi trực quan (VQA), tạo chú thích hình ảnh và căn cứ, nhưng vẫn còn thiếu các đánh giá nghiêm ngặt về sự phù hợp của chúng với các giá trị lấy con người làm trung tâm (HC) như công bằng, đạo đức và tính bao hàm. Để giải quyết khoảng cách này, bài báo này trình bày HumaniBench , một chuẩn mực mới bao gồm 32.000 cặp câu hỏi hình ảnh trong thế giới thực và một công cụ đánh giá . Nhãn được tạo thông qua một quy trình hỗ trợ AI và được các chuyên gia xác thực. HumaniBench đánh giá LMM trên nhiều nhiệm vụ VQA mở và đóng dựa trên bảy nguyên tắc căn chỉnh chính: công bằng, đạo đức, sự đồng cảm, tính bao hàm, suy luận, tính mạnh mẽ và đa ngôn ngữ. Các nguyên tắc này, dựa trên đạo đức AI và các yêu cầu thực tế, cung cấp một cái nhìn toàn diện về tác động xã hội. Kết quả chuẩn mực trên nhiều LMM khác nhau cho thấy các mô hình độc quyền thường vượt trội hơn về suy luận, tính công bằng và đa ngôn ngữ, trong khi các mô hình nguồn mở vượt trội hơn về tính mạnh mẽ và căn cứ. Hầu hết các mô hình đều gặp khó khăn trong việc cân bằng giữa độ chính xác với hành vi đạo đức và bao hàm. Các kỹ thuật như gợi ý chuỗi suy nghĩ và điều chỉnh thời gian thử nghiệm giúp cải thiện sự liên kết. Là chuẩn mực đầu tiên được thiết kế riêng cho sự liên kết HC, HumaniBench cung cấp một nền tảng thử nghiệm nghiêm ngặt để chẩn đoán các hạn chế và thúc đẩy phát triển LMM có trách nhiệm. Tất cả dữ liệu và mã đều được công khai để tái tạo.