Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

DEBATE, TRAIN, EVOLVE: Self Evolution of Language Model Reasoning

Created by
  • Haebom

作者

Gaurav Srivastava, Zhenyu Bi, Meng Lu, Xuan Wang

概要

大規模言語モデル(LLM)は膨大なデータセットによる広範な訓練で推論能力が大幅に向上したが、追加データのみに依存することは実用的になっていない。本論文では、外部の監督なしで自主的に推論能力を向上させるモデルの必要性を強調し、単一言語モデルを発展させるためにマルチエージェントディスカッショントレースを使用する新しいグランド真実のないトレーニングフレームワークであるDTE(Debate、Train、Evolve)を提案する。また、ディスカッションの質を向上させるために、エージェントに推論を批判し、改善するよう明示的に指示する新しいプロンプト戦略であるReflect-Critique-Refineも紹介します。 7つの推論ベンチマークで6つの公開ウェイトモデルを対象に広範な評価を行った結果、DTEフレームワークはかなりの改善を達成し、特に困難なGSM-PLUSデータセットで平均8.92%の精度向上を示した。さらに、他のすべてのベンチマークで平均5.8%の精度が向上し、強力なクロスドメイン一般化能力を示しました。

Takeaways、Limitations

Takeaways:
Ground truthなしでマルチエージェントディスカッションを通じて単一言語モデルの推論能力を向上させるDTEフレームワークの提案。
ディスカッション品質を向上させるReflect-Critique-Refineプロンプト戦略の導入
GSM-PLUSデータセットで8.92%の精度を向上させ、他のベンチマークで5.8%の精度を向上させることで、強力なパフォーマンスを証明し一般化する能力を確認します。
オープンソースコードとモデル公開による研究の再現性と拡散の貢献
Limitations:
論文の内容だけではDTEフレームワークの計算コストと訓練時間関連情報不在。
モデルの具体的な改善原理やメカニズムの詳細な説明の欠如
他の推論ベンチマークに対する一般化性能のさらなる分析が必要
👍