この論文では、希少自動エンコーダ(SAEs)を使用して大規模言語モデル(LLM)から解釈可能な特徴を抽出し、推論時に生成されたトークンのSAE活性化とサンプル精度を相関させるCorrSteerを提案します。この方法では、コントラストデータセットや大規模アクティベーションを保存する必要はなく、推論時にアクティベーションのみを使用して関連する特徴を抽出し、平均アクティベーションからステアリング係数を取得してパイプライン全体を自動化します。 Gemma-2 2BおよびLLaMA-3.1 8BモデルのQA、偏向緩和、脱獄防止、および推論ベンチマークで改善された性能を示し、MMLUで+3.3%、HarmBenchで+27.2%向上を達成しました。選択した特徴は、各タスクの要件に合った意味論的に意味のあるパターンを示しています。