Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CleanGen: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Yuetai Li, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Dinuka Sahabandu, Bhaskar Ramasubramanian, Radha Poovendran

개요

본 논문은 대규모 언어 모델(LLM)의 생성 작업에서 백도어 공격을 완화하기 위한 새로운 추론 시간 방어 기법인 CLEANGEN을 제시한다. CLEANGEN은 공격자가 원하는 내용을 나타내는 토큰에 대해 백도어된 LLM이 다른 LLM보다 훨씬 높은 확률을 할당한다는 점을 이용한다. CLEANGEN은 이러한 토큰 확률의 차이를 이용하여 공격자가 선호하는 의심스러운 토큰을 식별하고, 손상되지 않은 다른 LLM이 생성한 토큰으로 대체하여 공격자가 원하는 내용의 생성을 방지한다. 경량의 효과적인 디코딩 전략으로, 최첨단(SOTA) LLM과 호환된다. 다섯 가지 SOTA 백도어 공격에 대한 평가 결과, CLEANGEN은 기존 방어 기법들보다 낮은 공격 성공률(ASR)을 달성했으며, 악성이 아닌 사용자 질의에 대해서는 유용성을 유지하면서 계산 오버헤드도 최소화했다.

시사점, 한계점

시사점:
LLM의 백도어 공격에 대한 새로운 효과적인 방어 기법 CLEANGEN 제시
경량화된 디코딩 전략으로 SOTA LLM과의 호환성 확보
기존 방어 기법들보다 우수한 공격 성공률 감소 효과 확인
악성이 아닌 질의에 대한 유용성 유지 및 최소화된 계산 오버헤드
한계점:
특정 백도어 공격 유형에 대한 평가 결과이며, 다른 유형의 공격에 대한 일반화 가능성은 추가 연구 필요
사용된 LLM과 백도어 공격 기법의 종류에 따라 성능이 달라질 수 있음
CLEANGEN이 모든 백도어 공격을 완벽하게 방어할 수 있다고 단정 지을 수 없음
추론 시간 방어이므로, 모델 학습 단계에서의 백도어 공격에는 효과적이지 않을 수 있음
👍