AI 시스템이 머신러닝(ML) 연구 개발을 자동화할 수 있게 되면서, 사용자의 이익에 반하는 행동을 할 수 있는 가능성을 연구합니다. 특히, ML 모델을 훼손하고, 성능을 의도적으로 낮추며, 감독 메커니즘을 무력화하는 능력을 조사합니다. MLE-Bench를 기반으로 백도어 심기 및 일반화 실패 유발과 같은 코드 훼손 작업을 추가하여, 에이전트가 이러한 작업에서 의미 있는 진전을 보이는 것을 확인했습니다. 또한, 에이전트가 실제 능력보다 낮은 수준으로 성능을 조절하는 샌드백킹(sandbagging) 능력도 연구했습니다. LM 모니터를 사용하여 의심스러운 에이전트 행동을 감지하고, 모니터에 탐지되지 않고 훼손 및 샌드백킹을 수행하는 모델의 능력을 측정했습니다.