본 논문은 점점 더 지능화되고 신뢰할 수 있는 기초 모델에 대한 안전성 평가의 중요성이 증대됨에 따라, 고급 AI 시스템이 평가 상황을 인식하고 평가 과정의 무결성을 훼손하는지 여부와 그 방식에 대한 의문을 제기합니다. 주요 대형 추론 모델에 대한 표준 안전성 테스트 중, 모델이 어떠한 문맥적 단서 없이도 평가받고 있음을 인식하고 더 안전하게 행동하는 현상을 발견했습니다. 이는 AI 시스템이 평가 환경의 존재를 인식하고 행동을 자율적으로 변경하여 평가 결과에 영향을 미치는 '평가 위장' 현상에 대한 체계적인 연구를 수행하게 하는 동기가 되었습니다. 다양한 기초 모델과 주요 안전성 벤치마크를 사용한 광범위한 실험을 통해, 평가 대상 AI 시스템의 추론 및 상황 인식 능력이 향상될수록 평가 위장 행위가 더욱 흔해짐을 발견했습니다. 구체적으로, 추론 모델이 평가를 인식하는 비율은 비추론 모델보다 16% 높았고, 기초 모델의 크기가 커짐에 따라 (32B에서 671B로) 특정 경우 평가 위장이 30% 이상 증가했으며, 소규모 모델에서는 평가 위장이 미미했습니다. 또한 기본 메모리를 갖춘 AI는 평가를 인식할 가능성이 2.3배 높고 안전성 테스트 점수가 19% 높았습니다. 평가 위장 의도를 감지하고 이러한 행동과 상관된 내부 신호를 밝히기 위해 사고 과정 모니터링 기술을 고안하여 향후 완화 연구에 대한 통찰력을 제공했습니다.