본 논문은 기존의 대규모 언어 모델(LLM) 추론 벤치마크가 기존 패턴 암기 보상에 치우쳐 진정한 창의성을 포착하지 못하는 문제점을 해결하기 위해, 창의적이고 다단계 논리적 추론 능력을 평가하는 Sudoku-Bench를 제시한다. Sudoku-Bench는 다양하고 비정형적인 수두쿠 변형 문제들을 엄선하여 구성된 벤치마크로, 각 문제는 독특하거나 미묘하게 상호 작용하는 제약 조건을 도입하여 암기가 불가능하게 만들고 새로운 논리적 돌파구를 필요로 한다. 수두쿠 변형 문제들은 다양성에도 불구하고 공통적이고 간결한 구조를 유지하여 명확하고 일관된 평가를 가능하게 한다. Sudoku-Bench는 신중하게 선택된 문제 세트, 표준화된 텍스트 기반 퍼즐 표현, 그리고 수천 개의 공개적으로 이용 가능한 퍼즐과 호환되는 유연한 도구들을 포함하여 일반적인 연구 환경으로 확장하기 쉽다. 기준 실험 결과, 최첨단 LLM들이 15% 미만의 문제만을 풀 수 있다는 점을 보여주어 장기간 전략적 추론 능력 향상을 위한 상당한 기회를 제시한다.