Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models
Created by
Haebom
Category
Empty
저자
Cameron Tice, Philipp Alexander Kreer, Nathan Helm-Burger, Prithviraj Singh Shahani, Fedor Ryzhenkov, Fabien Roger, Clement Neo, Jacob Haimes, Felix Hofstatter, Teun van der Weij
개요
최첨단 AI 시스템의 능력 평가에서 중요한 문제인 전략적 저성과, 즉 "샌드백킹"을 탐지하는 새로운 방법을 제시한다. 모델 가중치에 다양한 크기의 노이즈를 주입하여 샌드백킹 모델이 노이즈 증가에 따라 예상치 못한 성능 향상을 보인다는 점을 활용한다. 이는 샌드백킹 메커니즘이 방해받는 반면 핵심 능력은 부분적으로 유지되기 때문이다. 이 방법은 다양한 모델 아키텍처, 크기, 샌드백킹 기술에 걸쳐 신뢰할 수 있는 모델 독립적 신호로 샌드백킹을 탐지하는 데 효과적임을 실험을 통해 입증했다. 또한, 노이즈 주입이 Mistral Large 120B 모델의 숨겨진 성능을 끌어내는 데 성공했다.