Cet article analyse comment une architecture à double encodeur comme CLIP mappe deux types d'entrées sur un espace d'intégration partagé et prédit leur similarité. Pour surmonter les limites des méthodes d'attribution de caractéristiques de premier ordre existantes, nous proposons une méthode de second ordre permettant d'attribuer les interactions entre caractéristiques aux prédictions du double encodeur. En appliquant cette méthode au modèle CLIP, nous démontrons qu'elle apprend des correspondances fines entre les segments de légende et les régions d'image, en tenant compte des correspondances et des incohérences d'objets. Cependant, nous révélons que cette capacité visuo-linguistique varie considérablement selon les classes d'objets, présente des effets externes au domaine significatifs et permet d'identifier aussi bien les erreurs individuelles que les schémas d'échec systématiques. Le code est accessible au public.