최적화 및 제약 프로그래밍 분야의 목표는 자연어로 문제를 설명하고 자동으로 실행 가능한 효율적인 모델을 얻는 것입니다. 대규모 언어 모델(LLM)이 이 비전을 현실로 만들 수 있을 것처럼 보이지만, 기존 벤치마크에 대한 모델 자동 생성에서 상당한 성공을 거두는 것처럼 보이는 것은 데이터 오염 때문일 수 있습니다. 본 연구는 LLM의 진정한 추론 능력을 평가하기 위해, CSPLib 문제를 구조는 유지하면서 맥락을 변경하고 오해의 소지가 있는 요소를 도입하여 체계적으로 재구성하고 변형했습니다. 세 개의 대표적인 LLM이 원본 및 수정된 설명에 대해 생성한 모델을 비교 분석했습니다.