본 논문은 언어 모델의 복잡한 작업 처리 능력 향상을 위한 새로운 방법인 DisCIPL을 제시합니다. DisCIPL은 Planner 모델이 작업별 추론 프로그램을 생성하고, Follower 모델들이 이를 실행하는 "자기 조종" 방식의 언어 모델입니다. 기존 언어 모델들이 자연어 내에서의 탐색이나 계획 수행에 어려움을 겪는 문제점을 해결하기 위해, 문제 해결에 필요한 구체적인 추론 단계를 모방하는 대신 문제의 추상적인 구조(해결책 검증 및 탐색 방법)를 설명하는 언어 모델의 강점을 활용합니다. DisCIPL은 재귀적 탐색 절차를 생성하여 언어 모델 추론을 안내함으로써 검증 가능하고 효율적인 추론을 가능하게 합니다. 작은 Follower 모델(예: Llama-3.2-1B)을 사용하더라도 GPT-4와 같은 대규모 모델과 비슷하거나 더 나은 성능을 보이며, 계획과 실행을 분리하여 병렬화된 Monte Carlo 추론 전략을 가능하게 합니다. 이는 기존의 best-of-N 샘플링보다 우수하며, 추가적인 미세 조정 없이 기존 언어 모델을 통해 자동으로 구현될 수 있습니다.