본 논문은 LLM을 이용하여 여러 후보 응답 중 최적의 응답을 선택하는 'LLM-as-a-Judge' 시스템에 대한 새로운 공격 기법인 'JudgeDeceiver'를 제안합니다. JudgeDeceiver는 최적화 기반 프롬프트 주입 공격으로, 공격자가 원하는 질문에 대해 특별히 제작된 시퀀스를 후보 응답에 주입하여 LLM-as-a-Judge가 다른 후보 응답과 상관없이 공격자가 원하는 응답을 선택하도록 만듭니다. 이는 경사 기반 방법을 사용하여 최적화 문제로 공식화됩니다. 실험 결과, JudgeDeceiver는 기존의 수동 프롬프트 주입 공격이나 탈옥 공격보다 훨씬 효과적임을 보여주며, LLM 기반 검색, 강화 학습, 도구 선택 등 다양한 사례 연구에서 효과를 입증합니다. 또한, 기존 방어 기법(정답 탐지, 퍼플렉서티 탐지, 퍼플렉서티 창 탐지)의 부족함을 보이며, 새로운 방어 전략 개발의 필요성을 강조합니다. 소스 코드는 공개적으로 제공됩니다.