[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Understanding Reasoning in Thinking Language Models via Steering Vectors

Created by
  • Haebom

作者

Constantin Venhoff, Iv an Arcuschin, Philip Torr, Arthur Conmy, Neel Nanda

概要

この論文は、思考能力を持つ大規模言語モデル(LLM)の推論プロセスを制御する新しい方法を提示します。 DeepSeek-R1-Distillモデルを使用して、10の異なるカテゴリにわたって500の課題を実行する実験を通じて、不確実性表現、仮説検証のための例の生成、推論過程での振り返りなど、さまざまな推論行動を確認しました。これらの行動は、モデルの活性化空間内の線形方向に媒介され、ステアリングベクトルを使用して制御できることを示しています。本研究では、これらのベクターを抽出して適用して、モデルの振り返りの傾向や不確実性表現などの推論プロセスの特定の側面を調整する方法を提供します。 3つのDeepSeek-R1-Distillモデルを用いて制御方法の一貫性を検証した。

Takeaways、Limitations

Takeaways:
思考能力を持つLLMの推論プロセスを制御し操作する新しい方法を提示します。
モデルの推論行動(不確実性の表現、例の生成、振り返りなど)を識別して制御する実用的なツールを提供します。
さまざまなモデルアーキテクチャで一貫した制御性能を示します。
推論プロセスの理解と解釈力を向上させます。
Limitations:
DeepSeek-R1-Distillモデルに特化した方法で、他のLLMアーキテクチャの一般化の可能性にはさらなる研究が必要です。
ステアリングベクトルの抽出および適用プロセスの詳細な説明が不足している可能性がある。
500の課題にはさまざまなカテゴリが含まれていますが、すべての種類の推論課題を網羅することはできません。
制御可能な推論行動の範囲は限定的であり得る。
👍