[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SmartThinker: Learning to Compress and Preserve Reasoning by Step-Level Length Control

Created by
  • Haebom

作者

Xingyang He, Xiao Ling, Jie Liu

概要

本稿では、大規模推論モデル(LRM)の推論過程で発生する過剰な計算コストを解決するために、SmartThinkerという新しいフレームワークを提案します。従来のグローバル長ペナルティ方式は、重要な推論段階まで過度に短縮する問題を抱えています。最初のステップでは、拒絶サンプリングとマップ学習微調整(SFT)を使用してモデルを短縮型推論モードに適応させ、2番目のステップでは、ステップごとの長さ制御ポリシー最適化(SCPO)を適用して、重要なステップには長さを増やし、それほど重要ではないステップには長さを短くすることで効率を向上させます。 SCPOは、オンライン重要度推定器、段階的長さ制御補償関数、段階的一般化利点推定(S-GAE)、難易度適応クリッピング戦略の4つのコンポーネントで構成されています。複数の推論ベンチマークとさまざまなバックボーンモデルの実験の結果、SmartThinkerは、従来の方法と比較して類似またはより良いパフォーマンスを維持しながら、重複した推論を大幅に減らすことを示しています。

Takeaways、Limitations

Takeaways:
LRMの推論効率を大幅に向上させるための新しい方法を提示します。
各推論ステップの重要度に応じて長さを制御する微調整されたアプローチの効果を実証。
従来の方法より優れたまたは同等の性能を維持しながら、重複した推論を減らすことを実験的に確認。
SCPOコンポーネント(オンライン重要度推定器、段階的長さ制御補償関数、S-GAE、難易度適応クリッピング戦略)を介して効率的な長さ制御を可能にします。
Limitations:
SmartThinkerのパフォーマンス向上が特定のベンチマークとバックボーンモデルに限定される可能性。
オンライン重要度推定器の精度が全体的な性能に影響を与える可能性があります。
段階的重要度評価の正確性に関するさらなる研究が必要になるかもしれません。
さまざまな種類の推論問題に対する一般化性能の追加検証が必要です。
👍