[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ASTRO: Teaching Language Models to Reason by Reflecting and Backtracking In-Context

Created by
  • Haebom

作者

Joongwon Kim, Anirudh Goyal, Liang Tan, Hannaneh Hajishirzi, Srinivasan Iyer, Tianlu Wang

概要

ASTROは、言語モデルが検索アルゴリズムのように推論するように訓練するフレームワークです。自己反射、バックトラッキング、ナビゲーションを明示的に活用して、強化学習を通じて推論能力を向上させた最近の大規模言語モデル(LLM)推論モデルとは異なり、ASTROはMonte Carlo Tree Search(MCTS)に基づいて、数学のトラブルシューティングプロセスで得られた合成データセットを介して構造化ナビゲーションを内在化するようにモデルを訓練します。ナビゲーションコースを自然言語思考コースに変換し、成功と失敗の回復の両方を捉え、強化学習のための豊富なプレナビゲーション知識を提供します。 Llama 3シリーズモデルにASTROを適用し、MATH-500で16.0%、AMC 2023で26.9%、AIME 2024で20.0%のパフォーマンス向上を達成しました。特に反復的な修正を必要とする困難な問題では、パフォーマンスの向上が目立っていました。これは、ナビゲーションからインスピレーションを得た訓練がオープンLLMに強力な推論能力を与える原則的な方法であることを示しています。

Takeaways、Limitations

Takeaways:
ナビゲーションベースのトレーニングを通じてオープンLLMの推論能力を向上させるための新しい方法を提示します。
Llama 3のような既存モデルの推論能力を大幅に改善できることを実験的に証明した。
特に反復的な修正が必要な難しい問題解決能力の向上に効果的。
MCTSベースの合成データセットを活用して効率的なトレーニングを可能にします。
Limitations:
現在は数学問題解決に限られた研究。
MCTSに依存する合成データセットの一般化性能に関するさらなる研究の必要性
ASTROの効果が特定のモデル(Llama 3)に限定される可能性。他のモデルの適用性検証が必要です。
👍