Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Adaptive Dual Reasoner: Large Reasoning Models Can Think Efficiently by Hybrid Reasoning

Created by
  • Haebom

作者

Yujian Zhang, Keyu Chen, Zhifeng Shen, Ruizhi Qiao, Xing Sun

Adaptive Dual Reasoner (ADR)

概要

本論文は,過剰事故による計算コストと推論遅延問題を解決するために,2つの推論モード(高速事故,遅い事故)をサポートするAdaptive Dual Reasoner(ADR)を提案する。 ADR は、推論中の状況の複雑さに応じて動的にモードを切り替えます。 ADRは2段階で訓練されています:(1)指導学習による初期訓練(SFT)、(2)強化学習による推論努力の最適化。強化学習フェーズでは、エントロピーベースの動的ロールアウト戦略を使用するエントロピーガイドハイブリッドポリシー最適化(EHPO)を導入し、高エントロピーユニットで分岐を実行し、難易度認識ペナルティを適用することで、高速で遅い推論のバランスをとります。

Takeaways、Limitations

数学的推論ベンチマークにおける最先端のアプローチに対する性能と効率の間の効果的なバランスを達成
最大6.1%の性能向上と49.5%~59.3%の推論出力長の短縮
過度の事故による問題解決に対する新しいアプローチの提示
2つの推論モード間の動的遷移機構の開発
EHPO強化学習フレームワークによる推論努力の最適化
提案した方法の一般化性能と他の複雑な推論作業に対する適用性
モデルの実際の展開とスケーラビリティの追加分析が必要
👍