Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

CAPTURe: Đánh giá khả năng suy luận không gian trong các mô hình ngôn ngữ thị giác thông qua việc đếm đối tượng bị che khuất

Created by
  • Haebom

Tác giả

Atin Pothiraj, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal

Phác thảo

Bài báo này trình bày một nhiệm vụ mới, CAPTURe (Đếm Amodally cho các Mẫu thông qua Vùng Không nhìn thấy), để đánh giá khả năng của một mô hình trong việc suy ra các mẫu ẩn sau các vùng bị che khuất. CAPTURe yêu cầu mô hình đếm các đối tượng bằng cách suy ra các mẫu ẩn sau các vùng bị che khuất, đánh giá cả khả năng nhận dạng và suy luận mẫu trực quan. Nó bao gồm hai phiên bản: CAPTURe-real, sử dụng hình ảnh vật thể thực và CAPTURe-synthetic, sử dụng hình ảnh được tạo ra. Chúng tôi đã đánh giá bốn VLM mạnh mẽ—GPT-4o, Intern-VL2, Molmo và Qwen2-VL—và nhận thấy rằng chúng hoạt động kém trên cả các mẫu bị che khuất và không bị che khuất, và hiệu suất của chúng thậm chí còn giảm hơn nữa khi bị che khuất. Điều này cho thấy VLM gặp khó khăn trong việc suy ra các mối quan hệ không gian vô hình. Ngược lại, con người cho thấy tỷ lệ lỗi rất thấp trên CAPTURe. Việc cung cấp thêm thông tin về vị trí của các đối tượng bị che khuất đã cải thiện hiệu suất, cho thấy lỗi của mô hình xuất phát từ việc không thể xử lý được hiện tượng che khuất và khó khăn trong việc đếm trong hình ảnh.

Takeaways, Limitations

Takeaways:
Chúng tôi xin giới thiệu CAPTURe, một chuẩn mực mới để đánh giá khả năng suy luận về các vật thể bị che khuất.
Các VLM mạnh mẽ hiện nay cho thấy thiếu khả năng suy luận và hiểu biết về không gian của các vật thể bị che khuất.
Đề Xuất các hướng nghiên cứu tiếp theo để cải thiện hiệu suất của VLM (nâng cao khả năng suy luận thông tin bị che khuất, nhận dạng mẫu hình ảnh và khả năng lập luận).
Trình bày các hướng phát triển VLM trong tương lai thông qua sự khác biệt về hiệu suất giữa con người và VLM.
Limitations:
Kích thước của tập dữ liệu CAPTURe có thể bị giới hạn.
Các loại mô hình VLM được sử dụng trong quá trình đánh giá có thể bị hạn chế.
Nó có thể không phản ánh đầy đủ các cảnh tượng thị giác phức tạp của thế giới thực.
Việc cung cấp thông tin bổ sung sẽ cải thiện hiệu suất, chứng minh rằng các nguồn lỗi của mô hình có nhiều lớp, nhưng thiếu phân tích định lượng về từng nguyên nhân.
👍