본 논문은 코드 대규모 언어 모델(Code LLMs)의 추론 능력을 효과적이고 투명하게 벤치마킹하는 방법의 필요성을 강조한다. 기존의 벤치마킹 방식은 공개적으로 이용 가능한, 사람이 만든 데이터셋에 크게 의존하며, 이러한 고정된 벤치마크 데이터셋의 광범위한 사용은 벤치마킹 과정을 정적으로 만들어 데이터 오염에 취약하게 만든다. 본 논문에서는 데이터 오염 가능성 하에서 Code LLMs을 평가하기 위한 새로운 벤치마킹 세트인 \tool을 제안한다. \tool은 시드 프로그래밍 문제를 기반으로, 여러 에이전트를 사용하여 핵심 로직을 변경하지 않고 문맥을 추출하고 수정하여 의미적으로 동등한 변형을 생성한다. 동적 데이터 생성 방법을 도입하고 21개의 Code LLMs에 걸쳐 두 개의 시드 데이터셋에 대한 실험 연구를 수행한다. 결과는 \tool이 오염 위험 하에서 추론 능력을 효과적으로 벤치마킹하는 동시에 일관되고 신뢰할 수 있는 평가를 보장하기 위해 다양한 문제 세트를 생성함을 보여준다.