यह शोधपत्र CLIP जैसे दृष्टि-भाषा मॉडल (VLM) की मजबूती का अध्ययन करता है, जो सीमित लेबल वाले डेटा वाले रक्षा अनुप्रयोगों में उपयोगी है। विशेष रूप से, आंशिक अवरोध और निम्न SNR जैसे चुनौतीपूर्ण सैन्य वातावरणों में CLIP की मजबूती की जाँच करने के लिए, हमने 18 सैन्य वाहन वर्गों के एक कस्टम डेटासेट का उपयोग करके अवरोध प्रतिशत के एक फलन के रूप में वक्र के नीचे सामान्यीकृत क्षेत्र (NAUC) का मूल्यांकन किया। हमने पाया कि ट्रांसफार्मर-आधारित CLIP मॉडल ने CNN से बेहतर प्रदर्शन किया, जिसमें सूक्ष्म, वितरित अवरोधों ने मोटे, निरंतर अवरोधों की तुलना में अधिक प्रदर्शन गिरावट दिखाई। इसके अलावा, हमने देखा कि रैखिक जांच मॉडल लगभग 35% अवरोध पर तेजी से क्षीण होता है, जबकि बैकबोन को फाइन-ट्यूनिंग करने से प्रदर्शन गिरावट 60% या उससे अधिक अवरोधों तक कम हो जाती है।