[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

HueManity: Thăm dò nhận thức thị giác chi tiết trong MLLM

작성자
  • Haebom

Tác giả

Ryana Grover, Jayant Sravan Tamarapalli, Sahiti Yerramilli, Nilay Pande

Phác thảo

Bài báo này đề cập đến những hạn chế của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) trong việc thực hiện các nhiệm vụ nhận thức tinh tế. Chúng tôi trình bày điểm chuẩn HueManity, bao gồm 83.850 hình ảnh chứa các chuỗi chữ số theo kiểu mẫu chấm Ishihara, để đánh giá khả năng nhận thức thị giác của MLLM. Chín MLLM tiên tiến được đánh giá trên HueManity và cho thấy chúng kém hiệu quả đáng kể so với cả mô hình cơ sở thị giác máy tính hiện có và của con người. MLLM có hiệu suất cao nhất đạt độ chính xác 33,6% đối với nhiệm vụ 'dễ' dựa trên chữ số và độ chính xác 3% đối với nhiệm vụ 'khó' chữ số, trong khi người tham gia đạt điểm gần như hoàn hảo (100% và 95,6%) và mô hình ResNet50 được tinh chỉnh đạt độ chính xác 96,5% và 94,5%. Điều này làm nổi bật một khoảng cách đáng kể trong khả năng thị giác của các MLLM hiện tại. Trong bài báo này, chúng tôi phân tích sâu hơn các yếu tố tiềm ẩn về mô hình đào tạo và kiến trúc góp phần tạo nên khoảng cách nhận thức trong MLLM và công khai bộ dữ liệu và mã HueManity cho mục đích nghiên cứu trong tương lai.

Takeaways, Limitations

Takeaways:
Nó cho thấy những hạn chế nghiêm trọng về khả năng nhận thức trực quan của MLLM hiện tại.
Chúng tôi cung cấp một chuẩn mực mới (HueManity) để cải thiện khả năng nhận thức trực quan của MLLM.
Chúng tôi trình bày các hướng nghiên cứu nhằm cải thiện kiến trúc MLLM và phương pháp đào tạo.
Chúng tôi hỗ trợ nghiên cứu nhằm cải thiện tính mạnh mẽ về nhận thức của MLLM thông qua các tập dữ liệu và mã mở.
Limitations:
Tiêu chuẩn HueManity tập trung vào một loại nhiệm vụ nhận thức thị giác cụ thể (tương tự như bài kiểm tra Ishihara), điều này có thể hạn chế khả năng khái quát hóa của nó.
Cần phải khám phá sâu hơn về kiến trúc và phương pháp đào tạo của MLLM được phân tích.
Phân tích được trình bày chỉ giới hạn ở một MLLM cụ thể và khả năng khái quát hóa sang các mô hình khác cần được xác minh.
👍