본 논문은 코드 대규모 언어 모델(Code LLMs)의 추론 능력을 효과적이고 투명하게 벤치마킹하기 위한 새로운 방법론인 \tool을 제안합니다. 기존의 벤치마킹 방식은 공개적으로 이용 가능한, 사람이 만든 고정된 데이터셋에 크게 의존하여 데이터 오염에 취약하다는 한계를 가지고 있습니다. \tool은 씨앗 프로그래밍 문제를 바탕으로, 여러 에이전트를 사용하여 핵심 논리를 변경하지 않고 문맥을 추출하고 수정하여 의미적으로 동등한 변형들을 생성하는 동적 데이터 생성 방식을 도입합니다. 21개의 Code LLMs와 두 개의 씨앗 데이터셋을 이용한 실험 결과, \tool은 오염 위험 하에서도 추론 능력을 효과적으로 벤치마킹하고, 다양한 문제 세트를 생성하여 일관되고 신뢰할 수 있는 평가를 보장함을 보여줍니다.