对抗性输入攻击会显著改变 CLIP 向量,从而影响集成 CLIP 的模型(例如文本到图像的生成模型或大规模视觉语言模型)的下游鲁棒性。本文探讨了 CLIP 文本编码器的鲁棒性问题。我们提出了 LEAF,这是一种高效的文本域对抗性微调方法,可扩展至大规模 CLIP 模型。LEAF 显著提高了零样本对抗准确率,同时保持了鲁棒图像编码器的视觉性能。与文本到图像的扩散模型结合使用时,LEAF 提高了对抗性噪声下的生成质量,并且在多模态检索任务中,与对抗性噪声下的标准 CLIP 模型相比,其召回率有所提高。此外,我们证明了鲁棒文本编码器可以通过直接优化更好地从向量重建输入文本。