每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

两个领域的稳健性:CLIP 需要稳健的文本编码器

Created by
  • Haebom

作者

Elias Abad Rocamora、Christian Schlarmann、Naman Deep Singh、吴永涛、Matthias Hein、Volkan Cevher

大纲

对抗性输入攻击会显著改变 CLIP 向量,从而影响集成 CLIP 的模型(例如文本到图像的生成模型或大规模视觉语言模型)的下游鲁棒性。本文探讨了 CLIP 文本编码器的鲁棒性问题。我们提出了 LEAF,这是一种高效的文本域对抗性微调方法,可扩展至大规模 CLIP 模型。LEAF 显著提高了零样本对抗准确率,同时保持了鲁棒图像编码器的视觉性能。与文本到图像的扩散模型结合使用时,LEAF 提高了对抗性噪声下的生成质量,并且在多模态检索任务中,与对抗性噪声下的标准 CLIP 模型相比,其召回率有所提高。此外,我们证明了鲁棒文本编码器可以通过直接优化更好地从向量重建输入文本。

Takeaways,Limitations

Takeaways:
显著提高文本领域的零样本对抗准确率。
保持强大的图像编码器提供的视觉性能。
提高对抗噪声下文本到图像扩散模型的生成质量。
在多模态检索任务中提高对抗噪声下的召回率。
从嵌入中更好地重建输入文本。
Limitations:
Limitations 在论文中没有直接提及(但是,它专注于文本编码器,而图像编码器的研究依赖于现有研究。)
👍