Optimizing Adaptive Attacks against Watermarks for Language Models
Created by
Haebom
저자
Abdulrahman Diaa, Toluwani Aremu, Nils Lukas
개요
대규모 언어 모델(LLM)은 원치 않는 콘텐츠를 대규모로 확산하는 데 악용될 수 있습니다. 콘텐츠 워터마킹은 콘텐츠에 메시지를 숨김으로써 악용을 억제하고 비밀 워터마킹 키를 사용하여 감지를 가능하게 합니다. 강건성은 핵심 보안 속성으로, 탐지를 회피하려면 콘텐츠의 품질이 (상당히) 저하되어야 함을 나타냅니다. 많은 LLM 워터마킹 방법이 제안되었지만, 강건성은 워터마킹 방법에 대한 지식이 없고 최적이 아닌 공격만 찾을 수 있는 비적응적 공격자에 대해서만 테스트되었습니다. 본 논문에서는 워터마킹 강건성을 목적 함수로 공식화하고, 선호도 기반 최적화를 사용하여 특정 워터마킹 방법에 대한 적응적 공격을 조정합니다. 평가 결과, (i) 적응적 공격이 조사된 모든 워터마크에 대한 탐지를 회피하고, (ii) 모든 워터마크에 대한 훈련이 보이지 않는 워터마크를 회피하는 데 성공하며, (iii) 최적화 기반 공격이 비용 효율적임을 보여줍니다. 이러한 결과는 적응적으로 조정된 공격에 대한 강건성을 테스트해야 할 필요성을 강조합니다. 적응적으로 최적화된 paraphraser는 https://github.com/nilslukas/ada-wm-evasion 에서 공개합니다.