Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Understanding Reasoning in Thinking Language Models via Steering Vectors

Created by
  • Haebom

作者

Constantin Venhoff, Iv an Arcuschin, Philip Torr, Arthur Conmy, Neel Nanda

概要

この論文は、思考能力を持つ大規模言語モデル(LLM)の推論プロセスを制御する新しい方法を提示します。 DeepSeek-R1-Distillモデルを対象に500のさまざまな課題を実行し、不確実性表現、仮説検証のための例の生成、推論過程での振り返りなど、いくつかの推論行動を確認しました。これらの挙動がモデルの活性化空間内の線形方向に媒介されることを明らかにし、これを制御ベクトルを用いて調整できることを示した。この研究は、推論プロセスの特定の側面(例えば、反復傾向、不確実性表現)を調整する方法を提供し、異なるモデル構造でも一貫した制御が可能であることを2つのDeepSeek-R1-Distillモデルによって検証しました。

Takeaways、Limitations

Takeaways:
思考能力を持つLLMの推論プロセスを制御し操作する新しい方法を提示します。
モデルの活性化空間内の線形方向を用いて推論挙動を制御できることを証明した。
不確実性表現、仮説検証、振り返りなど、特定の推論行動を制御する実用的なツールを提供します。
さまざまなモデル構造で一貫した制御可能性を検証
Limitations:
DeepSeek-R1-Distillモデルに特化したアプローチで、他のLLMアーキテクチャへの一般化の可能性に関するさらなる研究が必要です。
制御ベクトルの抽出と適用過程の複雑さと解釈の可能性に関するさらなる研究の必要性
500の課題にはさまざまなカテゴリが含まれていますが、すべての種類の推論課題をカバーするわけではありません。
👍