본 논문은 대규모 언어 모델(LLM) 평가에서 벤치마크 데이터 오염(BDC) 문제를 해결하기 위한 기존 완화 전략들의 효과를 체계적으로 평가한 연구입니다. 기존 연구들이 주로 정확도 변화에만 초점을 맞춘 것과 달리, 본 논문은 질문 단위의 평가 결과 일치 여부를 강조하는 '충실도'와 '오염 저항성'이라는 두 가지 새로운 지표를 제시합니다. 10개의 LLM, 5개의 벤치마크, 20개의 BDC 완화 전략, 2가지 오염 시나리오를 사용한 광범위한 실험을 통해, 기존 전략 중 어떤 것도 모든 벤치마크에서 기본 사례(벤치마크 업데이트 없음)보다 오염 저항성을 현저히 향상시키지 못하며, 충실도와 오염 저항성 간의 균형을 효과적으로 맞추는 전략도 없다는 것을 밝혔습니다. 따라서 더욱 효과적인 BDC 완화 전략 개발의 필요성을 강조하고 있습니다.