본 논문은 현재 기초 모델 및 에이전트의 주요 한계점 중 하나인 장기 계획 수립 능력 부족 문제를 해결하기 위해, 게임 'Countdown'을 중심으로 한 새로운 계획 벤치마크 생성 절차를 제안합니다. 기존 벤치마크의 한계점(모호한 과제, 기존 자동 계획 시스템의 약점을 노린 과제)을 극복하기 위해, 수학 연산을 통해 목표 숫자를 만들어내는 Countdown 게임을 활용합니다. 이는 자연어로 쉽게 설명 가능하고, 계산적으로 어려우며(NP-complete), 암기가 어려울 정도로 다양한 인스턴스를 제공한다는 장점을 가지고 있습니다. 논문에서는 이론적 분석을 통해 계산 복잡도를 증명하고, 제안된 인스턴스 생성 절차의 우수성을 보여줍니다. 또한, 다양한 LLM 기반 계획 방법론을 평가하여, 제안된 동적 벤치마크가 기존 접근 방식에 매우 어려운 과제임을 입증합니다.