DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation
Created by
Haebom
저자
Hyeseon Ahn, Shinwoo Park, Suyeon Woo, Yo-Sub Han
개요
LLM 워터마크 기술의 신뢰성을 위협하는 '워터마크 스푸핑' 공격을 소개합니다. 이 공격은 악의적인 모델이 신뢰할 수 있는 모델의 워터마크를 모방하여 생성된 텍스트를 마치 신뢰할 수 있는 모델이 생성한 것처럼 위장할 수 있게 합니다. 본 연구는 워터마크 방사성(fine-tuning 과정에서 데이터 패턴이 의도치 않게 상속되는 현상)을 공격 벡터로 활용하여, 워터마크를 훔치고 복제하는 방법을 제시합니다.