Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Optimizing Adaptive Attacks against Watermarks for Language Models

Created by
  • Haebom

저자

Abdulrahman Diaa, Toluwani Aremu, Nils Lukas

개요

대규모 언어 모델(LLM)은 원치 않는 콘텐츠를 대규모로 확산하는 데 악용될 수 있습니다. 콘텐츠 워터마킹은 콘텐츠에 메시지를 숨김으로써 악용을 억제하고 비밀 워터마킹 키를 사용하여 감지를 가능하게 합니다. 강건성은 핵심 보안 속성으로, 탐지를 회피하려면 콘텐츠의 품질이 (상당히) 저하되어야 함을 나타냅니다. 많은 LLM 워터마킹 방법이 제안되었지만, 강건성은 워터마킹 방법에 대한 지식이 없고 최적이 아닌 공격만 찾을 수 있는 비적응적 공격자에 대해서만 테스트되었습니다. 본 논문에서는 워터마킹 강건성을 목적 함수로 공식화하고, 선호도 기반 최적화를 사용하여 특정 워터마킹 방법에 대한 적응적 공격을 조정합니다. 평가 결과, (i) 적응적 공격이 조사된 모든 워터마크에 대한 탐지를 회피하고, (ii) 모든 워터마크에 대한 훈련이 보이지 않는 워터마크를 회피하는 데 성공하며, (iii) 최적화 기반 공격이 비용 효율적임을 보여줍니다. 이러한 결과는 적응적으로 조정된 공격에 대한 강건성을 테스트해야 할 필요성을 강조합니다. 적응적으로 최적화된 paraphraser는 https://github.com/nilslukas/ada-wm-evasion 에서 공개합니다.

시사점, 한계점

시사점: LLM 워터마킹의 강건성 평가에 적응적 공격을 고려해야 함을 보여줍니다. 기존의 비적응적 공격 기반 평가는 LLM 워터마킹의 실제 안전성을 과대평가할 수 있음을 시사합니다. 최적화 기반 적응적 공격이 비용 효율적임을 확인했습니다.
한계점: 본 연구에서 사용된 적응적 공격이 모든 가능한 공격 유형을 포괄하지 못할 수 있습니다. 새로운 워터마킹 기법에 대한 적응적 공격 개발이 지속적으로 필요합니다. 특정 워터마킹 기법에 특화된 공격의 일반화 가능성에 대한 추가 연구가 필요합니다.
👍