본 논문은 언어 모델(LM)의 테스트 시간 추론(test-time reasoning)의 속도와 비용 문제를 해결하기 위해 DisCIPL이라는 새로운 방법을 제시합니다. DisCIPL은 Planner 모델이 특정 작업에 맞는 추론 프로그램을 생성하고, 여러 Follower 모델이 이를 실행하는 방식으로 동작합니다. 이를 통해 LM이 재귀적인 검색 절차를 생성하여 추론을 효율적으로 안내할 수 있게 됩니다. 소규모 Follower 모델(예: Llama-3.2-1B 또는 Qwen3-1.7B)을 사용하는 DisCIPL은 GPT-4o 및 o1과 같은 대규모 모델과 비슷하거나 더 나은 성능을 복잡한 제약 조건 생성 작업에서 보여줍니다. 또한, 최적의 N개 샘플링보다 우수한 병렬화된 Monte Carlo 추론 전략을 제공하며, 추가적인 미세 조정 없이도 기존 LM으로 자동 구현이 가능합니다.