Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

VLM có tầm nhìn hạn hẹp: Đánh giá khả năng suy luận thị giác phi cục bộ ở các VLM hàng đầu

Created by
  • Haebom

Tác giả

Shmuel Berman, Jia Deng

Phác thảo

Trong bài báo này, chúng tôi trình bày một phương pháp đánh giá mới để đánh giá khả năng suy luận thị giác phi cục bộ của các mô hình ngôn ngữ thị giác (VLM). Suy luận thị giác phi cục bộ là suy luận kết nối các dữ liệu thu thập được từ nhiều vùng của một hình ảnh, và chúng tôi phân loại nó thành ba loại: nhận thức so sánh, tìm kiếm nhảy cóc và tìm kiếm thị giác mượt mà. Các thí nghiệm của chúng tôi trên các VLM tiên tiến, bao gồm Gemini 2.5 Pro, Claude Vision 3.7 và GPT-o4-mini, cho thấy các mô hình này hầu như không vượt qua được độ chính xác ngẫu nhiên trong các tác vụ đơn giản của con người. Điều này cho thấy mặc dù VLM hoạt động tốt trên các chuẩn thị giác nguyên thủy, nhưng chúng thiếu các khả năng suy luận thị giác quan trọng. Nghiên cứu này cung cấp một bộ đánh giá có cấu trúc để xác minh liệu VLM có thể thực hiện các thuật toán thị giác giống con người hay không.

Takeaways, Limitations

Takeaways: Chúng tôi chứng minh rằng các VLM hiện đại có những hạn chế nghiêm trọng về khả năng tư duy thị giác phi cục bộ. Ngay cả trong các tác vụ thị giác đơn giản, chúng vẫn kém xa hiệu suất của con người, mang lại Takeaways quan trọng cho sự phát triển của VLM trong tương lai. Phương pháp đánh giá được trình bày trong nghiên cứu này có thể là một công cụ hữu ích để đánh giá khách quan khả năng tư duy thị giác của VLM.
Limitations: Nghiên cứu này chỉ tập trung vào một loại tác vụ tư duy thị giác phi cục bộ cụ thể, do đó khó có thể khẳng định rằng nó đánh giá toàn diện khả năng tư duy thị giác tổng thể của VLM. Cần mở rộng phạm vi đánh giá bằng cách bổ sung thêm nhiều loại tác vụ tư duy thị giác khác nhau. Ngoài ra, đặc điểm của tập dữ liệu hình ảnh được sử dụng để đánh giá có thể ảnh hưởng đến kết quả.
👍