Sign In

Foot-In-The-Door: A Multi-turn Jailbreak for LLMs

Created by
  • Haebom
Category
Empty

저자

Zixuan Weng, Xiaolong Jin, Jinyuan Jia, Xiangyu Zhang

개요

본 논문은 대규모 언어 모델(LLM)의 안전성을 위협하는 탈옥(jailbreak) 문제에 대해 다룬다. 특히, 심리학적 '발 디딤판 효과(foot-in-the-door)' 원리를 활용한 새로운 다회차 탈옥 기법인 FITD를 제안한다. FITD는 중간 단계의 완화된 질문을 통해 모델의 반응을 점진적으로 악의적인 방향으로 유도하여, 결국 금지된 유해한 출력을 얻어낸다. 7개의 널리 사용되는 모델을 대상으로 한 실험 결과, FITD는 평균 94%의 성공률을 달성하여 기존 최첨단 기법들을 능가하는 성능을 보였다. 또한, LLM의 자기 부패 현상을 심층 분석하여 현재의 정렬 전략의 취약성과 다회차 상호 작용의 위험성을 강조한다. 소스 코드는 깃허브에 공개되어 있다.

시사점, 한계점

시사점:
다회차 상호작용을 통한 LLM 탈옥의 심각성을 보여줌.
기존 탈옥 기법보다 효과적인 새로운 탈옥 기법(FITD) 제시.
LLM의 자기 부패 현상과 현재 정렬 전략의 취약성을 밝힘.
LLM 안전성 연구에 중요한 시사점 제공.
한계점:
FITD 기법의 일반화 가능성에 대한 추가 연구 필요.
특정 모델에 대한 과적합 가능성 존재.
FITD에 대한 방어 기법 개발 필요.
윤리적 함의에 대한 심도있는 논의 부족.
👍