Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Kiểm tra Argus: Các mô hình ngôn ngữ lớn đa phương thức có sở hữu con mắt của Panoptes không?

Created by
  • Haebom

Tác giả

Yang Yao, Lingyu Li, Jiaxin Song, Chiyu Chen, Zhenqi He, Yixu Wang, Xin Wang, Tianle Gu, Jie Li, Yan Teng, Yingchun Wang

Phác thảo

Bài báo này đề cập đến những hạn chế của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) trong khả năng nhận biết chi tiết thị giác và đưa ra suy luận nhân quả theo lẽ thường. Chúng tôi trình bày Argus Inspection, một chuẩn mực đa phương thức với hai cấp độ đầy thách thức, tích hợp nhận thức thị giác chi tiết và hiểu biết thông thường trong thế giới thực để đánh giá khả năng suy luận nhân quả. Hơn nữa, chúng tôi trình bày khung Eye of Panoptes, tích hợp một tham số nhị phân sigmoid và các hàm chỉ báo để cho phép đánh giá toàn diện hơn các phản hồi MLLM trong các tác vụ suy luận dựa trên ý kiến. Kết quả thử nghiệm trên 26 MLLM hàng đầu cho thấy hiệu suất tốt nhất trong suy luận nhận biết chi tiết thị giác chỉ là 0,46, cho thấy còn nhiều chỗ cần cải thiện.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một chuẩn mực mới (Argus Inspection) và khuôn khổ đánh giá (Eye of Panoptes) để đánh giá khả năng nhận dạng chi tiết trực quan và khả năng suy luận nhân quả theo lẽ thường của MLLM.
Trình bày mức độ hiện tại của khả năng nhận dạng chi tiết hình ảnh của MLLM và nhu cầu cải tiến.
Đề Xuất phương pháp đánh giá toàn diện hơn cho các nhiệm vụ lý luận dựa trên ý kiến.
_____T148000____:
Cần xem xét thêm về việc thiết lập độ khó và khả năng khái quát hóa của chuẩn mực Kiểm tra Argus.
Cần nghiên cứu thêm về việc tối ưu hóa các số liệu sigmoid và các hàm chỉ báo trong khuôn khổ Eye of Panoptes.
Cần nghiên cứu thêm để đảm bảo tính đa dạng trong các MLLM đang được đánh giá.
👍