GenAI 提供商使用水印来验证内容是否由其模型生成。水印是内容中隐藏的信号,可以使用秘密的水印密钥检测其存在。一个关键的安全威胁是欺骗攻击,攻击者可以将提供商的水印嵌入到非其自身生成的内容中,从而损害其声誉并破坏信任。现有的防御措施通过在同一内容中嵌入多个具有不同密钥的水印来防止欺骗,但这会降低模型效用。然而,如果攻击者能够收集到足够数量的带水印样本,欺骗仍然是一个威胁。本文提出了一种可证明的针对欺骗攻击的鲁棒防御方法,无论收集到多少带水印的内容,前提是攻击者无法轻易区分具有不同密钥的水印。所提出的方法不会进一步降低模型效用。对于每个查询,水印密钥的选择是随机的,并且只有检测到一个具有唯一密钥的水印时,内容才被视为真实。虽然所提出的防御措施侧重于图像和文本模式,但它与模式无关,将底层水印方法视为黑盒。所提出的方法可证明地限制了攻击者的成功率,使其成功率从近乎完美降低到仅仅 2%,且计算开销几乎可以忽略不计。