대규모 언어 모델(LLM)의 안전성 평가에 LLM-as-a-Judge 프레임워크가 점점 더 많이 사용되지만, 고가의 최첨단 모델로 인해 확장성에 제약이 있다. 본 연구에서는 비평가, 방어자, 심판 에이전트 간의 구조화된 토론을 통해 소규모 언어 모델(SLM)을 활용하는 비용 효율적인 멀티 에이전트 심판 프레임워크를 제안한다. 안전성 판단을 엄격하게 평가하기 위해 다양한 공격 방법과 대상 모델에 걸쳐 12,000개의 적대적 상호 작용으로 구성된 대규모 인간 주석 처리된 탈옥 벤치마크인 HAJailBench를 구축했다. 이 데이터 세트는 안전성 견고성과 심판 신뢰도를 모두 평가하기 위한 세분화된 전문가 라벨링된 ground truth를 제공한다. SLM 기반 프레임워크는 HAJailBench에서 GPT-4o 심판과 필적하는 합의를 달성하면서 추론 비용을 대폭 절감한다. 제거 실험 결과 3라운드의 토론이 정확성과 효율성 사이에서 최적의 균형을 이룬다는 것을 보여준다. 이러한 연구 결과는 구조화되고 가치에 부합하는 토론을 통해 SLM이 탈옥 공격의 의미론적 미묘함을 포착할 수 있으며, HAJailBench가 확장 가능한 LLM 안전성 평가를 위한 신뢰할 수 있는 기반을 제공한다는 것을 보여준다.