Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Steering LLM Reasoning Through Bias-Only Adaptation

Created by
  • Haebom

作者

Viacheslav Sinii, Alexey Gorbatovski, Artem Cherepanov, Boris Shaposhnikov, Nikita Balagansky, Daniil Gavrilov

概要

この論文では、強化学習を使用して、階層ごとに単一の$ D $ -次元ステアリングベクトルのみを学習し、基底重みを固定する方法について説明します。この方法は、数学的推論の課題で完全に強化された学習に調整された推論モデルの精度に合う性能を示しています。 80億パラメータモデルでは、追加パラメータは約0.0016%に過ぎず、さまざまなベースモデルと数学的推論ベンチマークでパフォーマンスを再現します。これらの結果は、高次元思考連鎖推論に必要なパラメータ予算の上限を狭め、数百万のアダプタ重みが不要であることを示唆しています。最小限の学習可能なスペースは、オプティマイザメモリとGPU間の通信を減らし、微調整の全体的なコストを下げます。また、ロジットレンズ分析により、学習したベクトルが一貫したトークン方向を増幅して、モデルの内部計算に関する明確な洞察を提供することを示しています。

Takeaways、Limitations

Takeaways:高次元思考連鎖推論のための効率的なパラメータ学習方法の提示。従来と比べて極めて少ないパラメータ追加で同等の性能達成。微調整コストの削減。モデル内部の動作原理の理解の促進
Limitations:提示された方法の一般化性能に関するさらなる研究が必要です。様々なタイプの推論課題に対する性能評価が必要特定の種類の数学的推論に限定された結果である可能性のある存在。
👍