Cet article soutient que, si les modèles de vision existants s'appuient principalement sur des informations de texture locales pour générer des caractéristiques faibles et non compositionnelles, les humains reconnaissent les objets en se basant à la fois sur ces informations et sur la composition de leurs parties. Les études existantes sur les biais forme/texture ont présenté les représentations de forme et de texture comme contradictoires, mesurant la forme par rapport à la texture, négligeant la possibilité que les modèles (et les humains) puissent utiliser les deux types d'indices simultanément, ainsi que la qualité absolue de ces deux types de représentations. Dans cet article, nous reformulons l'évaluation de la forme comme un problème absolu de capacité compositionnelle et la mettons en œuvre grâce au Score de Forme Compositionnelle (CSS). Le CSS mesure la capacité à reconnaître des images de paires objet-anagramme représentant différentes catégories d'objets tout en conservant la texture locale, mais en modifiant la disposition globale des parties. Grâce à l'analyse de 86 modèles convolutifs, transformateurs et hybrides, le CSS révèle une large gamme de sensibilité compositionnelle, l'apprentissage entièrement auto-supervisé et les transformateurs d'alignement linguistique tels que DINOv2, SigLIP2 et EVA-CLIP occupant l'extrémité supérieure du spectre du CSS. Des études mécanistiques révèlent que les réseaux à CSS élevé reposent sur des interactions à longue portée, que les masques d'attention à contrôle radial dégradent les performances et présentent un profil d'intégration unique en U, et que l'analyse de similarité représentationnelle révèle une transition de profondeur intermédiaire du codage local au codage global. Le contrôle BagNet reste aléatoire, excluant les stratégies de « piratage des bords ». Enfin, les scores de forme compositionnelle prédisent également d'autres évaluations dépendantes de la forme. En conclusion, nous suggérons que la voie vers des systèmes de vision véritablement robustes, généralisables et de type humain pourrait résider dans des architectures et des cadres d'apprentissage intégrant harmonieusement texture locale et forme compositionnelle globale, plutôt que d'imposer un choix artificiel entre forme et texture.