BudgetThinker: Empowering Budget-aware LLM Reasoning with Control Tokens
Created by
Haebom
作者
Hao Wen, Xinrui Wu, Yi Sun, Feifei Zhang, Liye Chen, Jie Wang, Yunxin Liu, Yunhao Liu, Ya-Qin Zhang, Yuanchun Li
概要
この論文では、限られたリソースやリアルタイム環境でも効率的な推論を可能にするために、LLM(Large Language Model)の推論プロセスの長さを正確に制御する新しいフレームワークであるBudgetThinkerを提案します。 BudgetThinkerは、推論中に特別な制御トークンを定期的に挿入し、モデルに残ったトークン予算を継続的に通知する方法を使用します。これは、監督微調整(SFT)と長さを考慮した補償関数を使用するカリキュラムベースの強化学習(RL)の2段階で構成されるトレーニングパイプラインと組み合わせられます。実験の結果、BudgetThinkerは、さまざまな推論予算で困難な数学的ベンチマークのパフォーマンスを維持するために、従来の方法よりも優れたパフォーマンスを示しました。