Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

HumaniBench: Một khuôn khổ lấy con người làm trung tâm để đánh giá các mô hình đa phương thức lớn

Created by
  • Haebom

Tác giả

Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya

Phác thảo

Bài báo này đề cập đến việc thiếu đánh giá nghiêm ngặt về sự liên kết của các mô hình đa phương thức quy mô lớn (LMM) với các giá trị lấy con người làm trung tâm (HC) (ví dụ: công bằng, đạo đức và tính bao hàm) và đề xuất một chuẩn mực mới, HumaniBench, để giải quyết vấn đề này. HumaniBench bao gồm 32.000 cặp câu hỏi-hình ảnh trong thế giới thực và một công cụ đánh giá, với các nhãn được tạo thông qua quy trình hỗ trợ AI và xác minh của chuyên gia. LMM được đánh giá trên nhiều nhiệm vụ VQA mở và đóng trên bảy nguyên tắc liên kết cốt lõi: công bằng, đạo đức, sự đồng cảm, tính bao hàm, suy luận, tính mạnh mẽ và đa ngôn ngữ. Kết quả chuẩn mực cho nhiều LMM khác nhau cho thấy các mô hình độc quyền thường vượt trội về suy luận, tính công bằng và đa ngôn ngữ, trong khi các mô hình nguồn mở lại vượt trội về tính mạnh mẽ và xây dựng nền tảng. Hầu hết các mô hình đều gặp khó khăn trong việc cân bằng độ chính xác với hành vi đạo đức và bao hàm. Các kỹ thuật như nhắc nhở Chuỗi suy nghĩ và điều chỉnh thời gian kiểm tra cải thiện sự liên kết. HumaniBench là chuẩn mực đầu tiên được thiết kế để căn chỉnh HC, cung cấp nền tảng thử nghiệm nghiêm ngặt để chẩn đoán các hạn chế và thúc đẩy phát triển LMM có trách nhiệm, với tất cả dữ liệu và mã đều có sẵn công khai để tái tạo.

Takeaways, Limitations

Takeaways:
Trình bày các tiêu chí đánh giá nghiêm ngặt cho sự liên kết giá trị lấy con người làm trung tâm của LMM.
Một tiêu chuẩn mới có tên HumaniBench đánh giá toàn diện tính công bằng, đạo đức và tính bao hàm của LMM.
Chúng tôi cho rằng các kỹ thuật như gợi ý Chuỗi suy nghĩ và điều chỉnh thời gian thử nghiệm có hiệu quả trong việc cải thiện sự liên kết giá trị lấy con người làm trung tâm trong LMM.
Phân tích so sánh điểm mạnh và điểm yếu của các mô hình độc quyền và nguồn mở để đề xuất hướng phát triển LMM.
ĐảM bảo khả năng tái tạo nghiên cứu thông qua việc công bố tất cả dữ liệu và mã.
Limitations:
Bất chấp các quy trình được hỗ trợ bởi AI và sự xác thực của chuyên gia, quá trình dán nhãn vẫn mang tính chủ quan và có khả năng xảy ra lỗi.
Khả năng khái quát hóa bị hạn chế do những hạn chế về loại và số lượng LMM có trong chuẩn mực hiện tại.
Cần phải xem xét thêm các giá trị lấy con người làm trung tâm ngoài bảy nguyên tắc cốt lõi.
Thiếu giải pháp cho vấn đề cân bằng giữa tính chính xác với hành vi đạo đức và bao hàm.
👍