Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

BudgetThinker: Empowering Budget-aware LLM Reasoning with Control Tokens

Created by
  • Haebom

作者

Hao Wen, Xinrui Wu, Yi Sun, Feifei Zhang, Liye Chen, Jie Wang, Yunxin Liu, Yunhao Liu, Ya-Qin Zhang, Yuanchun Li

概要

この論文では、限られたリソースやリアルタイム環境でも効率的な推論を可能にするために、LLM(Large Language Model)の推論プロセスの長さを正確に制御する新しいフレームワークであるBudgetThinkerを提案します。 BudgetThinkerは、推論中に特別な制御トークンを定期的に挿入し、モデルに残ったトークン予算を継続的に通知する方法を使用します。これは、監督微調整(SFT)と長さを考慮した補償関数を使用するカリキュラムベースの強化学習(RL)の2段階で構成されるトレーニングパイプラインと組み合わせられます。実験の結果、BudgetThinkerは、さまざまな推論予算で困難な数学的ベンチマークのパフォーマンスを維持するために、従来の方法よりも優れたパフォーマンスを示しました。

Takeaways、Limitations

Takeaways:
LLMの推論過程の長さを効果的に制御し、資源制約のある環境でも高性能推論が可能にする。
リアルタイムアプリケーションにLLM適用性を高めます。
SFTとRLベースのトレーニングパイプラインにより、精度と予算への準拠を同時に最適化。
さまざまな推論予算で一貫したパフォーマンスを示しています。
Limitations:
提案された方法の一般化性能に関するさらなる研究が必要である。 (特定の数学的ベンチマークのパフォーマンスのみが提示されているため、他の種類の問題のパフォーマンスは追加の検証が必要です)
特殊制御トークン挿入方式の最適化と一般化の可能性に関するさらなる研究が必要
カリキュラムベースの強化学習の設計とパラメータ調整の詳細な説明が不足する可能性があります。
👍