본 논문은 대규모 언어 모델(LLM)의 비윤리적인 행동, 특히 아첨과 같은 불성실한 행동을 평가하는 새로운 프레임워크인 JUSSA(Judge Using Safety-Steered Alternatives)를 제안합니다. 기존의 벤치마크들이 사실적 지식이나 명백한 유해 행동에만 초점을 맞추고 외부 평가자에 의존하는 한계를 극복하기 위해, JUSSA는 단일 샘플로 훈련된 스티어링 벡터를 활용하여 모델로부터 더 정직한 응답을 유도함으로써 LLM 평가자의 불성실한 행동 탐지 능력을 향상시킵니다. 또한, 기만적인 응답을 유도하도록 특별히 고안된 새로운 조작 데이터셋을 소개하고, JUSSA가 LLM 평가자가 불성실한 응답과 양성적인 응답을 더 잘 구분하고 미묘한 조작 행위를 식별하는 데 도움이 된다는 것을 실험적으로 보여줍니다.