Cet article étudie la robustesse des modèles vision-langage (VLM), tels que CLIP, utiles dans les applications de défense avec des données étiquetées limitées. Plus précisément, afin d'étudier la robustesse de CLIP dans des environnements militaires difficiles, tels que l'occlusion partielle et un faible rapport signal/bruit (SNR), nous avons évalué l'aire normalisée sous la courbe (NAUC) en fonction du pourcentage d'occlusion à l'aide d'un ensemble de données personnalisé de 18 classes de véhicules militaires. Nous avons constaté que le modèle CLIP basé sur Transformer surpassait les CNN, les occlusions distribuées à granularité fine affichant une dégradation des performances plus importante que les occlusions continues grossières. De plus, nous avons observé que le modèle de sonde linéaire se dégrade rapidement à environ 35 % d'occlusion, tandis qu'un réglage fin du backbone réduit la dégradation des performances à 60 % ou plus d'occlusions.