Understanding In-context Learning of Addition via Activation Subspaces
Created by
Haebom
作者
Xinyan Hu, Kayo Yin, Michael I. Jordan, Jacob Steinhardt, Lijie Chen
概要
本論文は、少数ショット学習を実行する言語モデルの順方向パスで予測ルールがどのように実装されるかを探る。整数$ K $を入力に加える予測規則を持つ少数ショット学習タスクを研究し、モデルの少数ショット能力を少数のアテンションヘッドに限定する新しい最適化方法を提示します。次元の縮小と分解によって個々のヘッドの詳細な分析を行い、Llama-3-8B-instructモデルを例として、3つのアテンションヘッドと6次元の部分空間にモデルのメカニズムを減らして分析する。さらに、アテンションヘッドに対する「集約」および「抽出」部分空間を連結する数学的等式を導き出すことによって、個々の例では、最終集約された概念で情報フローを追跡することができる。これにより、初期デモで学習されたミスが後期デモによって抑制される自己修正メカニズムを識別します。