Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

HumaniBench: Một khuôn khổ lấy con người làm trung tâm để đánh giá các mô hình đa phương thức lớn

Created by
  • Haebom

Tác giả

Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya

Phác thảo

Các mô hình đa phương thức quy mô lớn (LMM) đã được thử nghiệm rộng rãi trong các nhiệm vụ như trả lời câu hỏi trực quan (VQA), tạo chú thích hình ảnh và căn cứ, nhưng vẫn còn thiếu các đánh giá nghiêm ngặt về sự phù hợp của chúng với các giá trị lấy con người làm trung tâm (HC) như công bằng, đạo đức và tính bao hàm. Để giải quyết khoảng cách này, bài báo này trình bày HumaniBench , một chuẩn mực mới bao gồm 32.000 cặp câu hỏi hình ảnh trong thế giới thực và một công cụ đánh giá . Nhãn được tạo thông qua một quy trình hỗ trợ AI và được các chuyên gia xác thực. HumaniBench đánh giá LMM trên nhiều nhiệm vụ VQA mở và đóng dựa trên bảy nguyên tắc căn chỉnh chính: công bằng, đạo đức, sự đồng cảm, tính bao hàm, suy luận, tính mạnh mẽ và đa ngôn ngữ. Các nguyên tắc này, dựa trên đạo đức AI và các yêu cầu thực tế, cung cấp một cái nhìn toàn diện về tác động xã hội. Kết quả chuẩn mực trên nhiều LMM khác nhau cho thấy các mô hình độc quyền thường vượt trội hơn về suy luận, tính công bằng và đa ngôn ngữ, trong khi các mô hình nguồn mở vượt trội hơn về tính mạnh mẽ và căn cứ. Hầu hết các mô hình đều gặp khó khăn trong việc cân bằng giữa độ chính xác với hành vi đạo đức và bao hàm. Các kỹ thuật như gợi ý chuỗi suy nghĩ và điều chỉnh thời gian thử nghiệm giúp cải thiện sự liên kết. Là chuẩn mực đầu tiên được thiết kế riêng cho sự liên kết HC, HumaniBench cung cấp một nền tảng thử nghiệm nghiêm ngặt để chẩn đoán các hạn chế và thúc đẩy phát triển LMM có trách nhiệm. Tất cả dữ liệu và mã đều được công khai để tái tạo.

Takeaways, Limitations

Takeaways:
Giới thiệu HumaniBench, chuẩn mực đầu tiên để đánh giá nghiêm ngặt các LMM về sự phù hợp với các giá trị lấy con người làm trung tâm.
ĐáNh giá bảy nguyên tắc liên kết chính: công bằng, đạo đức, đồng cảm, bao hàm, lý luận, mạnh mẽ và đa ngôn ngữ thông qua các nhiệm vụ VQA khác nhau.
Phân tích so sánh điểm mạnh và điểm yếu của mô hình độc quyền và mô hình nguồn mở.
Chúng tôi chứng minh rằng các kỹ thuật như gợi ý chuỗi suy nghĩ và điều chỉnh thời gian thử nghiệm góp phần cải thiện sự liên kết của LMM.
Khả năng tái tạo đạt được thông qua việc tiết lộ tất cả dữ liệu và mã.
Limitations:
Cần nghiên cứu thêm để xác định tính toàn diện của các cân nhắc về mặt đạo đức và xã hội được HumaniBench đề cập.
Có thể có sự thiên vị đối với một số mô hình hoặc công nghệ nhất định.
Phạm vi của chuẩn mực này chỉ giới hạn ở nhiệm vụ VQA. Nó cần được mở rộng sang các nhiệm vụ đa phương thức khác.
Cần phải xác nhận thêm về độ tin cậy và độ chính xác của quy trình dán nhãn hỗ trợ AI.
👍