본 논문은 LLM-as-a-Judge 평가 체계에 대한 새로운 백도어 공격을 제안합니다. 공격자는 후보 모델과 평가자 모델 모두를 제어하여 악성 평가자를 통해 공격자에게 부당하게 높은 점수를 부여합니다. 단일 토큰 백도어를 사용하여 평가자 훈련 데이터의 1%만 손상시켜도 공격자의 점수가 정상 점수의 세 배가 됩니다. 웹 손상, 악의적 주석자, 가중치 손상의 세 가지 실제 설정에 해당하는 데이터 접근 수준을 체계적으로 분류합니다. 이러한 체계는 데이터 접근의 약한 것에서 강한 것으로의 상승을 반영하며 공격 심각도와 높은 상관관계가 있습니다. 가장 약한 가정인 웹 손상(1)에서도 공격자는 20%의 점수 인플레이션을 유도합니다. 마찬가지로, 가중치 손상(3) 체계에서는 더 강력한 가정을 통해 공격자가 점수를 1.5/5에서 4.9/5로 인플레이션할 수 있습니다. 이 백도어 공격은 다양한 평가자 아키텍처, 트리거 설계, 평가 작업 및 손상률에 걸쳐 일반화됩니다. 평가자 훈련 데이터의 10%를 손상시킴으로써, 독성 판단자(Guardrails)가 독성 프롬프트를 비독성으로 잘못 분류하는 비율을 89%로, RAG의 문서 재순위 지정 판단자에서 손상된 문서를 첫 번째로 순위 지정하는 비율을 97%로 제어할 수 있습니다. LLM-as-a-Judge는 윤리와 기술의 교차점에 있으며, 오도된 모델 선택 및 평가의 사회적 영향이 사용 가능한 방어 도구를 제한합니다. 이러한 과제 속에서 모델 병합은 백도어를 상쇄하고 ASR을 거의 0%로 줄이면서 SOTA 성능을 유지하는 원칙적인 도구로 등장합니다. 모델 병합의 낮은 계산 비용과 현재 LLM Judge 훈련 파이프라인에의 편리한 통합은 LLM-as-a-Judge 설정에서 백도어 완화를 위한 유망한 방법으로 자리매김합니다.