Optimized Couplings for Watermarking Large Language Models
Created by
Haebom
저자
Dor Tsur, Carol Xuan Long, Claudio Mayrink Verdun, Hsiang Hsu, Haim Permuter, Flavio P. Calmon
개요
본 논문은 대규모 언어 모델(LLM)이 생성한 텍스트에 워터마크를 삽입하는 방법을 단일 시도 설정에서 분석합니다. 가설 검정과 부가 정보의 관점에서 워터마크 탐지 성능과 생성된 텍스트 품질 저하 사이의 기본적인 상충 관계를 공식화하고 분석합니다. 워터마크 설계의 핵심 요소는 워터마크 탐지기와 공유되는 부가 정보와 LLM 어휘의 무작위 분할 간의 결합을 생성하는 것이라고 주장합니다. 최소 엔트로피 제약 조건을 만족하는 최악의 경우 LLM 다음 토큰 분포 하에서 최적의 결합 및 무작위화 전략을 파악합니다. 제안된 방식에 따른 탐지율의 폐쇄 형 표현을 제공하고 최대-최소 의미에서 비용을 정량화합니다. 마지막으로, 합성 데이터와 LLM 워터마킹 모두에서 제안된 방식을 이론적 최적값과 기존 방식과 비교하는 다양한 수치 결과를 제공합니다. 코드는 https://github.com/Carol-Long/CC_Watermark 에서 확인할 수 있습니다.
시사점: LLM 워터마킹의 기본적인 성능 한계를 이론적으로 분석하고, 최악의 경우에도 높은 탐지율을 달성하는 최적의 워터마킹 기법을 제시합니다. 합성 데이터 및 실제 LLM 워터마킹 실험을 통해 제안된 기법의 효율성을 검증합니다.
•
한계점: 분석은 특정 최악의 경우 LLM 다음 토큰 분포를 가정하고 있습니다. 실제 LLM의 분포가 이 가정과 얼마나 잘 일치하는지에 대한 추가적인 연구가 필요합니다. 또한, 워터마킹 기법의 robustness에 대한 분석이 부족하며, 다양한 공격(예: 워터마크 제거)에 대한 저항성을 평가하는 추가 연구가 필요합니다.