Cet article présente une nouvelle tâche, CAPTURe (Counting Amodally for Patterns Through Unseen Regions), visant à évaluer la capacité d'un modèle à déduire des motifs cachés derrière des régions occultées. CAPTURe exige que le modèle compte les objets en déduisant des motifs cachés derrière des régions occultées, évaluant ainsi à la fois la reconnaissance et l'inférence de motifs visuels. Il se compose de deux versions : CAPTURe-real, qui utilise des images d'objets réels, et CAPTURe-synthetic, qui utilise des images générées. Nous avons évalué quatre VLM puissants – GPT-4o, Intern-VL2, Molmo et Qwen2-VL – et constaté qu'ils étaient peu performants sur les motifs occultés et non occultés, et que leurs performances se dégradaient encore davantage en cas d'occultation. Cela suggère que les VLM peinent à déduire des relations spatiales invisibles. En revanche, les humains ont montré de très faibles taux d'erreur sur CAPTURe. Fournir des informations supplémentaires sur l'emplacement des objets occlus a amélioré les performances, suggérant que les erreurs du modèle proviennent à la fois de son incapacité à gérer l'occlusion et de sa difficulté à compter dans l'image.