ASTRO: Teaching Language Models to Reason by Reflecting and Backtracking In-Context
Created by
Haebom
作者
Joongwon Kim, Anirudh Goyal, Liang Tan, Hannaneh Hajishirzi, Srinivasan Iyer, Tianlu Wang
概要
ASTROは、言語モデルが検索アルゴリズムのように推論するように訓練するフレームワークです。自己反射、バックトラッキング、ナビゲーションを明示的に活用して、強化学習を通じて推論能力を向上させた最近の大規模言語モデル(LLM)推論モデルとは異なり、ASTROはMonte Carlo Tree Search(MCTS)に基づいて、数学のトラブルシューティングプロセスで得られた合成データセットを介して構造化ナビゲーションを内在化するようにモデルを訓練します。ナビゲーションコースを自然言語思考コースに変換し、成功と失敗の回復の両方を捉え、強化学習のための豊富なプレナビゲーション知識を提供します。 Llama 3シリーズモデルにASTROを適用し、MATH-500で16.0%、AMC 2023で26.9%、AIME 2024で20.0%のパフォーマンス向上を達成しました。特に反復的な修正を必要とする困難な問題では、パフォーマンスの向上が目立っていました。これは、ナビゲーションからインスピレーションを得た訓練がオープンLLMに強力な推論能力を与える原則的な方法であることを示しています。