Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

HueManity: Thăm dò nhận thức thị giác chi tiết trong MLLM

Created by
  • Haebom

Tác giả

Ryana Grover, Jayant Sravan Tamarapalli, Sahiti Yerramilli, Nilay Pande

Phác thảo

Bài báo này đề cập đến những hạn chế của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) trong việc thực hiện các nhiệm vụ nhận thức tinh tế. Chúng tôi trình bày một chuẩn mực mới, HueManity, bao gồm 83.850 hình ảnh chứa các chuỗi chữ số hai ký tự theo mẫu chấm kiểu Ishihara. Chín MLLM tiên tiến đã được đánh giá trên HueManity và cho thấy sự suy giảm hiệu suất đáng kể so với con người và các mô hình cơ sở thị giác máy tính hiện có. MLLM hiệu suất cao nhất đạt độ chính xác 33,6% trong nhiệm vụ dựa trên chữ số "dễ" và độ chính xác 3% trong nhiệm vụ chữ số "khó", trong khi người tham gia đạt điểm gần như hoàn hảo (100% và 95,6%), và mô hình ResNet50 được tinh chỉnh đạt độ chính xác lần lượt là 96,5% và 94,5%. Điều này làm nổi bật một khoảng cách đáng kể về khả năng thị giác của các MLLM hiện tại. Chúng tôi cũng phân tích các yếu tố tiềm ẩn về mô hình đào tạo và kiến ​​trúc góp phần tạo nên khoảng cách nhận thức trong MLLM và phát hành bộ dữ liệu và mã HueManity để thúc đẩy nghiên cứu sâu hơn về việc cải thiện tính mạnh mẽ về nhận thức của MLLM.

Takeaways, Limitations

Takeaways:
Ngược lại với khả năng suy luận trực quan cấp cao của MLLM, nó cho thấy rõ ràng những hạn chế trong khả năng thực hiện các nhiệm vụ nhận thức tinh tế.
Đề Xuất hướng nghiên cứu nhằm nâng cao khả năng nhận thức thị giác của MLLM.
Cho phép nghiên cứu MLLM bằng cách phát hành bộ dữ liệu HueManity.
Limitations:
Tiêu chuẩn HueManity tập trung vào một loại nhiệm vụ thị giác cụ thể và có thể không đánh giá đầy đủ khả năng thị giác tổng thể của MLLM.
Sự đa dạng về kiến ​​trúc và mô hình đào tạo của MLLM được phân tích có thể bị hạn chế.
👍