本論文は,過剰事故による計算コストと推論遅延問題を解決するために,2つの推論モード(高速事故,遅い事故)をサポートするAdaptive Dual Reasoner(ADR)を提案する。 ADR は、推論中の状況の複雑さに応じて動的にモードを切り替えます。 ADRは2段階で訓練されています:(1)指導学習による初期訓練(SFT)、(2)強化学習による推論努力の最適化。強化学習フェーズでは、エントロピーベースの動的ロールアウト戦略を使用するエントロピーガイドハイブリッドポリシー最適化(EHPO)を導入し、高エントロピーユニットで分岐を実行し、難易度認識ペナルティを適用することで、高速で遅い推論のバランスをとります。