본 논문은 고품질의 데이터나 강화 학습 없이, 약한 모델의 지도를 통해 강력한 언어 모델(LLM)의 추론 능력을 향상시키는 새로운 방법을 제시합니다. 기존의 강화 학습이나 고품질의 사례 학습을 이용한 방법들은 비용이 많이 드는 반면, 본 논문에서는 상대적으로 약한 모델의 지도를 통해 강력한 모델의 추론 능력을 효과적으로 향상시킬 수 있음을 보여줍니다. 다양한 벤치마크와 모델 아키텍처에 대한 실험을 통해, 약한 모델의 지도가 강력한 모델의 추론 성능을 향상시키는 것을 확인하였으며, 강화 학습의 약 94%에 달하는 성능 향상을 훨씬 적은 비용으로 달성할 수 있음을 밝혔습니다. 이는 비용이 많이 드는 기존 방법에 대한 효율적인 대안을 제시하는 결과입니다.