Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors
Created by
Haebom
저자
Hao Fang, Jiawei Kong, Tianqu Zhuang, Yixiang Qiu, Kuofeng Gao, Bin Chen, Shu-Tao Xia, Yaowei Wang, Min Zhang
개요
대규모 언어 모델(LLM)의 오용으로 인해 LLM이 생성한 텍스트를 식별하는 검출기가 개발되었지만, 이를 우회하기 위한 패러프레이징 공격이 등장했습니다. 기존 방법들은 특수한 패러프레이저를 훈련하는 데 상당한 데이터와 컴퓨팅 자원이 필요하며, 고급 검출 알고리즘에 직면하면 공격 효과가 크게 감소합니다. 이를 해결하기 위해 본 논문에서는 기존의 LLM을 사용하여 텍스트 검출기를 효과적으로 속이는 훈련이 필요 없는 방법인 CoPA(Contrastive Paraphrase Attack)를 제안합니다. CoPA는 LLM이 보다 인간과 유사한 텍스트를 생성하도록 유도하는 지침을 신중하게 작성하는 것으로 시작합니다. 그러나 LLM의 고유한 통계적 편향으로 인해 생성된 일부 텍스트에는 검출기가 감지할 수 있는 기계와 같은 특성이 남아 있을 수 있습니다. 이를 극복하기 위해 CoPA는 LLM이 생성한 인간과 유사한 분포와 대조되는 보조 기계 유사 단어 분포를 구성합니다. 디코딩 과정에서 기계 유사 패턴을 인간 유사 분포에서 빼서 CoPA는 텍스트 검출기로 감지하기 어려운 문장을 생성할 수 있습니다. 이론적 분석은 제안된 공격의 우수성을 시사하며, 광범위한 실험은 다양한 시나리오에서 텍스트 검출기를 속이는 CoPA의 효과를 검증합니다.