Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning

Created by
  • Haebom

作者

Zheng Li, Qingxiu Dong, Jingyuan Ma, Di Zhang, Kai Jia, Zhifang Sui

概要

本論文は、複雑な問題に対して優れた性能を示す推論モデルが単純な問題に過度に思考する傾向があるという問題を解決するために、ユーザーフレンドリーな適応制御可能な推論フレームワークであるSelfBudgeterを提案する。 SelfBudgeterは推論前に予算推定メカニズムを統合し、デュアルトレーニング方式を使用します。まず、モデルは標準化された形式でトークン予算を予測する方法を学習し、強化学習フェーズを通じて問題の難易度に応じて自律的に予算を計画し、それを厳密に遵守するように訓練されます。 SelfBudgeterは初期段階で予算見積もりを出力するので、ユーザーは待ち時間を予測でき、手動で事前に入力された予算フィールドを介して推論長を制御できます。実験の結果、SelfBudgeterは問題の複雑さに応じて予算を動的に割り当て、GSM8K、MATH500、AIME2025データセットで1.5Bモデルの平均応答長圧縮率61%、7Bモデルの48%を達成しながら精度はほぼ維持した。

Takeaways、Limitations

Takeaways:
ユーザーエクスペリエンスの向上:レイテンシ予測による生成プロセスの中断または継続に関する柔軟な意思決定が可能。
リソース効率の向上:問題の難易度に応じた動的予算割り当てによる応答長の圧縮。
制御可能性:予備充填された予算フィールドによる推論長さの手動制御。
モデル性能を維持する:応答長圧縮にもかかわらず高精度を維持します。
Limitations:
具体的なモデルアーキテクチャ、データセット、トレーニング方法などの詳細については、論文の原文を参照する必要があります。
様々な問題タイプとモデルサイズに対する一般化性能に関するさらなる研究が必要
ユーザー制御機能の実際のユーザビリティと効果の追加評価が必要です。
👍