Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Explore-Execute Chain: Towards an Efficient Structured Reasoning Paradigm

Created by
  • Haebom

作者

Kaisen Yang, Lixuan He, Rushi Shah, Kaicheng Yang, Qinwei Ma, Dianbo Liu, Alex Lamb

Explore-Execute Chain ($E^2C$)

概要

$ E ^ 2 C $は、大規模言語モデル(LLM)の推論能力を向上させるために設計されたフレームワークであり、推論を高次元戦略計画を作成するナビゲーション段階と選択された計画を実行する実行段階に分けます。このフレームワークは、マップ微調整(SFT)と強化学習(RL)を組み合わせたデュアルステップトレーニング方式を使用し、計画への準拠を強化する新しいデータ生成アルゴリズムをSFTに統合します。 $E^2C$はAIME'2024で他の方法より少ないトークンを使用して高い精度を達成し、ナビゲーション中心のSFT(EF-SFT)を介してクロスドメイン適応性を高め、医療ベンチマークのSFTよりも高い精度を示します。

Takeaways、Limitations

Takeaways:
計画と実行の分離による計算効率の向上
探索段階の活用による推論経路探索と一般化能力の改善
医療ベンチマークにおけるSFTより高い精度の達成とクロスドメイン適応性の向上
解釈の可能性の増加。
テスト時間効率の向上(Forest-of-Thoughtと比較してトークン使用量を削減)
Limitations:
論文に記載されているLimitationsはありません。
👍