본 논문은 대규모 언어 모델(LLM) 평가의 신뢰성에 심각한 위협이 되는 벤치마크 오염 문제를 해결하기 위해 벤치마크에 워터마킹을 적용하는 방법을 제시합니다. 원본 질문을 워터마크가 적용된 LLM으로 재구성하여 벤치마크의 유용성을 저해하지 않으면서 워터마킹을 진행합니다. 평가 과정에서는 이론적으로 뒷받침되는 통계적 검정을 사용하여 모델 훈련 중 텍스트 워터마크가 남긴 흔적인 "방사능"을 탐지합니다. 100억 개 토큰으로 10억 매개변수 모델을 처음부터 사전 훈련하고, ARC-Easy, ARC-Challenge, MMLU에서 오염 탐지 효과를 검증했습니다. 결과적으로 워터마킹 후 벤치마크 유용성은 유사하게 유지되었으며, 성능 향상에 충분한 오염이 있을 경우(예: ARC-Easy에서 +5% 향상 시 p-값 = 10⁻³) 오염 탐지에 성공했습니다.