본 논문은 인터넷에 공개된 대규모 언어 모델(LLM) 벤치마크가 향후 LLM의 학습이나 선택에 의도치 않게(혹은 의도적으로) 사용되어 모델 오염을 야기할 위험성을 제기한다. 기존의 해결책인 벤치마크 비공개 및 참가자의 모델/예측 제출 방식은 특정 기관에 대한 신뢰에 의존하며, 반복적인 질의를 통한 과적합 가능성을 남긴다. 본 논문은 정답을 완전히 공개하지 않으면서도 LLM을 공개적으로 평가할 수 있도록 벤치마크를 공개하는 방법을 제안한다. 핵심 아이디어는 여러 개의 논리적으로 정확한 답변을 준비하고 그 중 하나만 정답으로 포함시켜 답변에 무작위성을 주입하는 것이다. 이는 벤치마크의 베이즈 정확도(Bayes accuracy)를 낮추어 정답을 보호하고 데이터 오염 감지를 위한 테스트를 제공한다. 완벽한 모델조차 베이즈 정확도를 넘어설 수 없으므로, 이를 초과하는 경우 데이터 오염의 강력한 신호로 간주할 수 있다. 실험 결과, 본 방법이 다양한 벤치마크, 모델, 학습 방법에서 데이터 오염을 정확하게 감지할 수 있음을 보여준다.