Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary

Created by
  • Haebom
Category
Empty

저자

Yakai Li, Jiekang Hu, Weiduan Sang, Luping Ma, Jing Xie, Weijuan Zhang, Aimin Yu, Shijie Zhao, Qingjia Huang, Qihang Zhou

개요

본 논문은 대규모 언어 모델(LLM)의 안전 프로토콜을 우회하여 유해한 콘텐츠 생성이나 민감한 데이터 유출을 유도하는 적대적 공격(탈옥, jailbreak)에 대한 새로운 공격 기법을 제시합니다. 기존의 탈옥 기법과 달리, LLM의 출력 제약을 강화하기 위해 설계된 '프리필링(prefilling)' 기능을 활용하여 후속 토큰의 확률 분포를 직접 조작함으로써 모델의 출력을 제어합니다. 두 가지 공격 변형, 즉 보편적인 프리필 텍스트를 사용하는 정적 프리필링(SP)과 공격 성공률을 극대화하기 위해 프리필 텍스트를 반복적으로 최적화하는 최적화 프리필링(OP)을 제안합니다. AdvBench 벤치마크를 사용하여 6개의 최첨단 LLM에 대한 실험을 통해 제안된 기법의 효과를 검증하고, 기존 탈옥 기법과 결합했을 때 공격 성공률을 상당히 높일 수 있음을 보여줍니다. 특히 OP 기법은 특정 모델에서 최대 99.82%의 공격 성공률을 달성하여 기준 방법을 상당히 능가합니다. 본 논문은 프리필링 기능의 적대적 악용을 완화하기 위한 강력한 콘텐츠 검증 메커니즘의 필요성을 강조하며, 새로운 LLM 탈옥 공격 기법을 소개합니다. 모든 코드와 데이터는 공개적으로 이용 가능합니다.

시사점, 한계점

시사점:
LLM의 프리필링 기능을 악용한 새로운 탈옥 공격 기법 제시
기존 탈옥 기법보다 높은 공격 성공률 달성 (최대 99.82%)
LLM의 안전 프로토콜 취약성을 보여주는 실험적 증거 제시
LLM 개발자에게 강력한 콘텐츠 검증 메커니즘 구현의 필요성 제기
공개된 코드와 데이터를 통한 재현성 확보
한계점:
제안된 공격 기법이 모든 LLM에 대해 동일한 효과를 보이는지에 대한 추가 연구 필요
프리필링 기능 외 다른 LLM의 취약점에 대한 연구 필요
실제 환경에서의 공격 성공률에 대한 추가 검증 필요
특정 모델에 대한 높은 공격 성공률은 해당 모델의 특징에 기인할 가능성 고려
👍