本論文はChain-of-Thought(CoT)推論を用いた大規模言語モデル(LLM)の問題解決能力の向上に関する研究を扱う。既存のSupervised Fine-Tuning(SFT)、Reinforcement Learning(RL)、Tree-of-Thoughts(ToT)、Monte Carlo Tree Search(MCTS)などの方法が複雑な推論課題で失敗することが多いことを指摘し、分布移動、固有の探索部材、指数的推論費用など。そこで、本論文では、検証者が案内する深さ優先探索で推論を明示的にモデリングし、失敗時に戻ることができる新しい学習パラダイム「Diligent Learner」を提案する。 2つの適切で現実的な仮定の下で、既存の方法が失敗した場合でも、Diligent LearnerがCoTデータから効率的に学習できることを証明しています。これは、自然発生的で不完全なデータで訓練された拡張可能で信頼性の高い推論システムを構築するための道を開き、強力で解釈可能な問題解決能力を持つ大規模推論モデル(LRM)開発の基盤を築きます。