Este artículo estudia la robustez de los Modelos de Visión-Lenguaje (VLM), como CLIP, útiles en aplicaciones de defensa con datos etiquetados limitados. Específicamente, para investigar la robustez de CLIP en entornos militares complejos, como la oclusión parcial y la baja relación señal-ruido (SNR), evaluamos el Área Normalizada Bajo la Curva (NAUC) en función del porcentaje de oclusión utilizando un conjunto de datos personalizado de 18 clases de vehículos militares. Descubrimos que el modelo CLIP basado en Transformer superó a las CNN, con oclusiones distribuidas de grano fino que mostraron una mayor degradación del rendimiento que las oclusiones continuas gruesas. Además, observamos que el modelo de sonda lineal se degrada rápidamente a una oclusión de aproximadamente el 35%, mientras que el ajuste fino de la estructura principal reduce la degradación del rendimiento a oclusiones del 60% o superiores.