Bài báo này trình bày một nhiệm vụ mới, CAPTURe (Đếm Amodally cho các Mẫu thông qua Vùng Không nhìn thấy), để đánh giá khả năng của một mô hình trong việc suy ra các mẫu ẩn sau các vùng bị che khuất. CAPTURe yêu cầu mô hình đếm các đối tượng bằng cách suy ra các mẫu ẩn sau các vùng bị che khuất, đánh giá cả khả năng nhận dạng và suy luận mẫu trực quan. Nó bao gồm hai phiên bản: CAPTURe-real, sử dụng hình ảnh vật thể thực và CAPTURe-synthetic, sử dụng hình ảnh được tạo ra. Chúng tôi đã đánh giá bốn VLM mạnh mẽ—GPT-4o, Intern-VL2, Molmo và Qwen2-VL—và nhận thấy rằng chúng hoạt động kém trên cả các mẫu bị che khuất và không bị che khuất, và hiệu suất của chúng thậm chí còn giảm hơn nữa khi bị che khuất. Điều này cho thấy VLM gặp khó khăn trong việc suy ra các mối quan hệ không gian vô hình. Ngược lại, con người cho thấy tỷ lệ lỗi rất thấp trên CAPTURe. Việc cung cấp thêm thông tin về vị trí của các đối tượng bị che khuất đã cải thiện hiệu suất, cho thấy lỗi của mô hình xuất phát từ việc không thể xử lý được hiện tượng che khuất và khó khăn trong việc đếm trong hình ảnh.