AI 시스템의 성능 평가와 규제에 중요한 역할을 하는 성능 평가의 효과는 모델이 의도적으로 평가 중에 성능을 저하시키는 '샌드백킹' 문제에 직면해 있다. 샌드백킹은 개발자의 명시적인 개입 또는 의도치 않은 모델 동작을 통해 발생하며, 정확한 성능 평가에 근본적인 장애가 된다. 본 논문에서는 모델 가중치에 다양한 크기의 노이즈를 주입하는 새로운 샌드백킹 감지 방법을 제안한다. 샌드백킹하지 않는 모델은 노이즈가 증가함에 따라 예측 가능한 성능 저하를 보이지만, 샌드백킹 모델은 핵심 역량이 부분적으로 유지된 상태에서 성능 저하 메커니즘이 파괴되어 예외적인 성능 향상을 보인다. 다양한 모델 아키텍처, 크기, 샌드백킹 기술을 사용한 실험을 통해 이러한 독특한 반응 패턴을 샌드백킹 행동을 감지하는 신뢰할 수 있는 모델 독립적인 신호로 확인했다. 특히, 노이즈 주입은 모델이 지시 없이 성능을 저하시키는 상황에서 Mistral Large 120B의 전체 성능을 이끌어낼 수 있었다. 본 연구 결과는 최첨단 AI 시스템의 정확한 성능 평가를 보장하는 데 기여하는, AI 평가 및 감독을 위한 실용적인 도구를 제공한다.