Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

"To Survive, I Must Defect": Jailbreaking LLMs via the Game-Theory Scenarios

Created by
  • Haebom
Category
Empty

저자

Zhen Sun, Zongmin Zhang, Deqi Liang, Han Sun, Yule Liu, Yun Shen, Xiangshan Gao, Yilong Yang, Shuai Liu, Yutao Yue, Xinlei He

개요

본 논문은 대규모 언어 모델(LLM)에 대한 블랙박스 탈옥 공격 프레임워크인 Game-Theory Attack (GTA)를 제안합니다. GTA는 공격자와 안전 지향 LLM 간의 상호 작용을 유한 지평, 조기 중단 가능한 순차적 확률적 게임으로 형식화하고, LLM의 무작위 출력을 퀀탈 반응을 통해 재매개변수화합니다. "템플릿-안전성 플립"이라는 행동 가설을 도입하여 게임 이론적 시나리오를 통해 LLM의 효과적인 목표를 재구성하여 특정 맥락에서 안전성 제약을 약화시킵니다. 죄수의 딜레마 변형과 같은 고전 게임을 통해 이를 검증하고, 공격 성공률(ASR)을 높이기 위해 압력을 가하는 공격자 에이전트를 도입합니다. 다양한 프로토콜, 데이터 세트, LLM에서 95% 이상의 ASR을 달성하며, 효율성과 일반화 능력을 입증합니다. 또한, GTA는 실제 LLM 애플리케이션을 탈옥하고, 프롬프트 가드 모델 아래에서 탐지를 낮추면서 높은 ASR을 유지합니다.

시사점, 한계점

시사점:
GTA는 확장 가능한 블랙박스 탈옥 프레임워크를 제공하여 기존의 제한된 공격 방식을 극복합니다.
게임 이론적 접근 방식을 통해 LLM의 안전성 제약을 효과적으로 약화시키는 새로운 공격 메커니즘을 제시합니다.
다양한 LLM 및 데이터 세트에서 높은 공격 성공률을 달성하여 일반화 가능성을 입증합니다.
실제 LLM 애플리케이션에 대한 탈옥 성공을 통해 실제 위험성을 보여줍니다.
유해 단어 감지 에이전트와의 결합을 통해 탐지 회피 능력을 향상시킵니다.
한계점:
논문의 구체적인 기술적 한계는 제시되지 않았습니다.
(논문 요약에서 확인되지 않음)
👍