每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

通过随机密钥选择减轻生成模型中的水印伪造

Created by
  • Haebom

作者

Toluwani Aremu、Noor Hussein、Munachiso Nwadike、Samuele Poppi、张杰、Karthik Nandakumar、Neil Kong、Nils Lukas

大纲

GenAI 提供商使用水印来验证内容是否由其模型生成。水印是内容中隐藏的信号,可以使用秘密的水印密钥检测其存在。一个关键的安全威胁是欺骗攻击,攻击者可以将提供商的水印嵌入到非其自身生成的内容中,从而损害其声誉并破坏信任。现有的防御措施通过在同一内容中嵌入多个具有不同密钥的水印来防止欺骗,但这会降低模型效用。然而,如果攻击者能够收集到足够数量的带水印样本,欺骗仍然是一个威胁。本文提出了一种可证明的针对欺骗攻击的鲁棒防御方法,无论收集到多少带水印的内容,前提是攻击者无法轻易区分具有不同密钥的水印。所提出的方法不会进一步降低模型效用。对于每个查询,水印密钥的选择是随机的,并且只有检测到一个具有唯一密钥的水印时,内容才被视为真实。虽然所提出的防御措施侧重于图像和文本模式,但它与模式无关,将底层水印方法视为黑盒。所提出的方法可证明地限制了攻击者的成功率,使其成功率从近乎完美降低到仅仅 2%,且计算开销几乎可以忽略不计。

Takeaways, Limitations

Takeaways:
我们提出了一种与攻击者收集的水印内容数量无关的伪造防御措施。
它不会进一步降低模型效用。
适用于图像和文本模式,并且与模式无关。
可证明地限制了攻击者的成功率。
从经验上看,它显著降低了伪造攻击的成功率。
Limitations:
只有当攻击者无法轻易区分来自不同密钥的水印时,防御才是有效的。
由于依赖于底层的水印方法,因此整个系统的安全级别取决于水印方法的安全性。
👍