Sign In

BadJudge: Backdoor Vulnerabilities of LLM-as-a-Judge

Created by
  • Haebom
Category
Empty

저자

Terry Tong, Fei Wang, Zhe Zhao, Muhao Chen

개요

본 논문은 LLM-as-a-Judge 평가 체계에 대한 새로운 백도어 공격을 제안합니다. 공격자는 후보 모델과 평가자 모델 모두를 제어하여 악성 평가자를 통해 공격자에게 부당하게 높은 점수를 부여합니다. 단일 토큰 백도어를 사용하여 평가자 훈련 데이터의 1%만 손상시켜도 공격자의 점수가 정상 점수의 세 배가 됩니다. 웹 손상, 악의적 주석자, 가중치 손상의 세 가지 실제 설정에 해당하는 데이터 접근 수준을 체계적으로 분류합니다. 이러한 체계는 데이터 접근의 약한 것에서 강한 것으로의 상승을 반영하며 공격 심각도와 높은 상관관계가 있습니다. 가장 약한 가정인 웹 손상(1)에서도 공격자는 20%의 점수 인플레이션을 유도합니다. 마찬가지로, 가중치 손상(3) 체계에서는 더 강력한 가정을 통해 공격자가 점수를 1.5/5에서 4.9/5로 인플레이션할 수 있습니다. 이 백도어 공격은 다양한 평가자 아키텍처, 트리거 설계, 평가 작업 및 손상률에 걸쳐 일반화됩니다. 평가자 훈련 데이터의 10%를 손상시킴으로써, 독성 판단자(Guardrails)가 독성 프롬프트를 비독성으로 잘못 분류하는 비율을 89%로, RAG의 문서 재순위 지정 판단자에서 손상된 문서를 첫 번째로 순위 지정하는 비율을 97%로 제어할 수 있습니다. LLM-as-a-Judge는 윤리와 기술의 교차점에 있으며, 오도된 모델 선택 및 평가의 사회적 영향이 사용 가능한 방어 도구를 제한합니다. 이러한 과제 속에서 모델 병합은 백도어를 상쇄하고 ASR을 거의 0%로 줄이면서 SOTA 성능을 유지하는 원칙적인 도구로 등장합니다. 모델 병합의 낮은 계산 비용과 현재 LLM Judge 훈련 파이프라인에의 편리한 통합은 LLM-as-a-Judge 설정에서 백도어 완화를 위한 유망한 방법으로 자리매김합니다.

시사점, 한계점

시사점:
LLM-as-a-Judge 평가 체계의 백도어 취약성을 명확히 보여줍니다.
다양한 데이터 접근 수준에 따른 공격 심각도를 체계적으로 분석합니다.
모델 병합을 백도어 완화를 위한 효과적인 방법으로 제시합니다.
한계점:
제안된 모델 병합 방법의 일반화 성능 및 확장성에 대한 추가 연구가 필요합니다.
다양한 유형의 백도어 공격에 대한 모델 병합의 효과성을 추가로 검증해야 합니다.
실제 환경에서의 공격 방어 전략 및 대응 방안에 대한 추가적인 연구가 필요합니다.
👍