この論文では、強化学習を使用して、階層ごとに単一の$ D $ -次元ステアリングベクトルのみを学習し、基底重みを固定する方法について説明します。この方法は、数学的推論の課題で完全に強化された学習に調整された推論モデルの精度に合う性能を示しています。 80億パラメータモデルでは、追加パラメータは約0.0016%に過ぎず、さまざまなベースモデルと数学的推論ベンチマークでパフォーマンスを再現します。これらの結果は、高次元思考連鎖推論に必要なパラメータ予算の上限を狭め、数百万のアダプタ重みが不要であることを示唆しています。最小限の学習可能なスペースは、オプティマイザメモリとGPU間の通信を減らし、微調整の全体的なコストを下げます。また、ロジットレンズ分析により、学習したベクトルが一貫したトークン方向を増幅して、モデルの内部計算に関する明確な洞察を提供することを示しています。