Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mitigating Watermark Forgery in Generative Models via Randomized Key Selection

Created by
  • Haebom

저자

Toluwani Aremu, Noor Hussein, Munachiso Nwadike, Samuele Poppi, Jie Zhang, Karthik Nandakumar, Neil Gong, Nils Lukas

개요

GenAI 제공업체는 콘텐츠가 자사 모델에 의해 생성되었는지 확인하기 위해 워터마킹을 사용합니다. 워터마크는 콘텐츠에 숨겨진 신호이며, 비밀 워터마크 키를 사용하여 존재를 감지할 수 있습니다. 핵심 보안 위협은 위조 공격으로, 공격자는 제공업체의 워터마크를 제공업체가 생성하지 않은 콘텐츠에 삽입하여 평판을 훼손하고 신뢰를 저해할 수 있습니다. 기존의 방어책은 동일한 콘텐츠에 여러 키를 가진 여러 워터마크를 임베딩하여 위조를 방지하지만, 이는 모델 유틸리티를 저하시킬 수 있습니다. 그러나 공격자가 충분히 많은 워터마크가 있는 샘플을 수집할 수 있는 경우 위조는 여전히 위협으로 남아 있습니다. 본 논문은 공격자가 수집한 워터마크 콘텐츠의 수와 관계없이, 공격자가 서로 다른 키의 워터마크를 쉽게 구별할 수 없는 경우, 위조 공격에 대해 증명 가능한 방어책을 제안합니다. 제안하는 방식은 모델 유틸리티를 추가적으로 저하시키지 않습니다. 각 쿼리에 대해 워터마크 키 선택을 랜덤화하고, 정확히 하나의 키로 워터마크가 감지된 경우에만 콘텐츠를 진본으로 간주합니다. 이미지 및 텍스트 모드에 초점을 맞추지만, 제안하는 방어책은 기본 워터마킹 방법을 블랙박스로 취급하기 때문에 모드에 구애받지 않습니다. 제안하는 방법은 공격자의 성공률을 증명 가능하게 제한하며, 거의 완벽한 성공률에서 무시할 만한 계산 오버헤드로 단 2%로 감소하는 것을 경험적으로 관찰했습니다.

시사점, 한계점

시사점:
공격자가 수집한 워터마크 콘텐츠의 수에 독립적인 위조 방어책을 제안합니다.
모델 유틸리티를 추가적으로 저하시키지 않습니다.
이미지 및 텍스트 모드에 적용 가능하며, 모드에 구애받지 않습니다.
공격자의 성공률을 증명 가능하게 제한합니다.
경험적으로 위조 공격 성공률을 크게 감소시킵니다.
한계점:
공격자가 서로 다른 키의 워터마크를 쉽게 구별할 수 없는 경우에만 방어책이 효과적입니다.
기본 워터마킹 방법에 의존하므로, 워터마킹 방법의 보안성에 따라 전체 시스템의 보안 수준이 달라집니다.
👍