GenAI 제공업체는 콘텐츠가 자사 모델에 의해 생성되었는지 확인하기 위해 워터마킹을 사용합니다. 워터마크는 콘텐츠에 숨겨진 신호이며, 비밀 워터마크 키를 사용하여 존재를 감지할 수 있습니다. 핵심 보안 위협은 위조 공격으로, 공격자는 제공업체의 워터마크를 제공업체가 생성하지 않은 콘텐츠에 삽입하여 평판을 훼손하고 신뢰를 저해할 수 있습니다. 기존의 방어책은 동일한 콘텐츠에 여러 키를 가진 여러 워터마크를 임베딩하여 위조를 방지하지만, 이는 모델 유틸리티를 저하시킬 수 있습니다. 그러나 공격자가 충분히 많은 워터마크가 있는 샘플을 수집할 수 있는 경우 위조는 여전히 위협으로 남아 있습니다. 본 논문은 공격자가 수집한 워터마크 콘텐츠의 수와 관계없이, 공격자가 서로 다른 키의 워터마크를 쉽게 구별할 수 없는 경우, 위조 공격에 대해 증명 가능한 방어책을 제안합니다. 제안하는 방식은 모델 유틸리티를 추가적으로 저하시키지 않습니다. 각 쿼리에 대해 워터마크 키 선택을 랜덤화하고, 정확히 하나의 키로 워터마크가 감지된 경우에만 콘텐츠를 진본으로 간주합니다. 이미지 및 텍스트 모드에 초점을 맞추지만, 제안하는 방어책은 기본 워터마킹 방법을 블랙박스로 취급하기 때문에 모드에 구애받지 않습니다. 제안하는 방법은 공격자의 성공률을 증명 가능하게 제한하며, 거의 완벽한 성공률에서 무시할 만한 계산 오버헤드로 단 2%로 감소하는 것을 경험적으로 관찰했습니다.