Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning

Created by
  • Haebom

作者

Qikai Chang, Zhenrong Zhang, Pengfei Hu, Jun Du, Jiefeng Ma, Yicheng Pan, Jianshu Zhang, Quan Liu, Jianqing Gao

概要

大規模言語モデル(LLM)は数学的推論の分野で大きな進歩を遂げていますが、数値計算や形式的な記号操作などの高精度作業にはまだ困難があります。外部ツールの統合は、このギャップを解消するための有望なアプローチとして浮上しました。既存の方法は、ツール統合推論データの構成、微調整最適化の実行、推論の改善という3つの主要な課題に直面しています。これらの制限を克服するために、ツール統合型ヒーラーアーキテクチャ最適化 via RL (THOR) を提案します。まず、TIRGenを介して高品質のツール統合推論パスデータセットを構築し、さまざまなモデルにわたってポリシーをソートして一般化します。第二に、微調整階層最適化を実行するために、エピソードレベルのトラブルシューティングと段階的なコード生成を共同で最適化するRL戦略を導入します。これは、中間ツール呼び出しの成功が最終正解の正確さを予測する強力な指標であるという重要な洞察に基づいています。最後に、THORは即時ツールフィードバックを利用して、推論プロセス中に誤りのある推論経路を動的に修正する独自の修正メカニズムを統合します。 THORはさまざまなモデルで強力な一般化を示し、推論モデルと非推論モデルの両方で効果的に機能します。また、複数の数学的ベンチマークで同様の規模のモデルに対して最高レベルのパフォーマンスを達成し、コードベンチマークでも一貫した改善を提供します。

Takeaways、Limitations

THORは、ツール統合の推論、微調整の最適化、推論の改善という3つの主要な課題を解決します。
TIRGenを介して高品質のツール統合推論データセットを構築します。
RL戦略を通じてエピソードとステージレベルの最適化を行います。
自己修正メカニズムによる推論エラーを動的に修正します。
さまざまなモデルで強力な一般化性能を示します。
数学とコードのベンチマークでSOTAパフォーマンスを達成します。
コード公開予定( https://github.com/JingMog/THOR )。
論文の具体的なLimitationsは明記されていない。 (ただし、従来の方法のLimitationsを参照)
👍