Sign In

Optimization-based Prompt Injection Attack to LLM-as-a-Judge

Created by
  • Haebom
Category
Empty

저자

Jiawen Shi, Zenghui Yuan, Yinuo Liu, Yue Huang, Pan Zhou, Lichao Sun, Neil Zhenqiang Gong

개요

본 논문은 LLM을 이용하여 여러 후보 응답 중 최적의 응답을 선택하는 'LLM-as-a-Judge' 시스템에 대한 새로운 공격 기법인 'JudgeDeceiver'를 제안합니다. JudgeDeceiver는 최적화 기반 프롬프트 주입 공격으로, 공격자가 원하는 질문에 대해 특별히 제작된 시퀀스를 후보 응답에 주입하여 LLM-as-a-Judge가 다른 후보 응답과 상관없이 공격자가 원하는 응답을 선택하도록 만듭니다. 이는 경사 기반 방법을 사용하여 최적화 문제로 공식화됩니다. 실험 결과, JudgeDeceiver는 기존의 수동 프롬프트 주입 공격이나 탈옥 공격보다 훨씬 효과적임을 보여주며, LLM 기반 검색, 강화 학습, 도구 선택 등 다양한 사례 연구에서 효과를 입증합니다. 또한, 기존 방어 기법(정답 탐지, 퍼플렉서티 탐지, 퍼플렉서티 창 탐지)의 부족함을 보이며, 새로운 방어 전략 개발의 필요성을 강조합니다. 소스 코드는 공개적으로 제공됩니다.

시사점, 한계점

시사점:
LLM-as-a-Judge 시스템의 취약성을 효과적으로 공격하는 새로운 기법(JudgeDeceiver) 제시.
기존 프롬프트 주입 공격 및 탈옥 공격보다 훨씬 효과적인 공격 방법 제시.
LLM-as-a-Judge 기반 시스템(LLM 기반 검색, 강화 학습, 도구 선택 등)의 보안 위험성을 보여줌.
기존 방어 기법의 한계를 밝히고 새로운 방어 전략 개발의 필요성 제기.
공개된 소스 코드를 통해 재현성 확보 및 추가 연구 가능.
한계점:
JudgeDeceiver의 효과는 특정 LLM 및 설정에 의존적일 수 있음.
제시된 방어 기법들이 모두 무력화되었지만, 다른 더욱 강력한 방어 기법이 존재할 가능성 존재.
실제 세계 시스템에 대한 공격의 실질적인 영향에 대한 추가적인 연구 필요.
👍