본 논문은 대규모 언어 모델(LLM)의 추론 성능 향상을 위해 추론 과정에 추가적인 연산을 사용하는 프롬프트 기반 추론 방식의 높은 비용 문제를 해결하기 위한 새로운 접근법을 제시합니다. 인지 과학에서 사용되는 메타추론의 계산 모델을 기반으로, 필요한 경우에만 중간 추론 단계를 선택적으로 사용하도록 LLM을 훈련하는 방법을 제안합니다. 불필요한 추론에 대한 페널티를 포함하는 보상 함수를 개발하고, 이를 전문가 반복(Expert Iteration)과 함께 사용하여 LLM을 훈련합니다. 실험 결과, 제안된 방법은 기존의 few-shot chain-of-thought 프롬프팅 및 STaR에 비해 세 가지 모델에서 20-37%의 토큰 생성 감소를 달성하면서 다양한 데이터셋에서 과제 수행 능력을 유지하는 것을 보여줍니다.