本論文は、大規模言語モデル(LLM)の推論過程で発生する過度の説明(chains of thought、CoTs)問題を解決するための新しい方法であるActivation-Steered Compression(ASC)を提示します。 ASCは、モデルの活性化空間における簡潔な数学的推論と冗長な英語ベースの推論の違いを利用して、「ステアリングベクトル」を抽出して注入することによって推論プロセスを圧縮します。これは、再訓練なしに推論の時点で隠れ表現を直接修正してCoT長を短縮する技術です。 KL-divergence-bounded constraintを用いた理論的解析により操舵強度を調節し、MATH500およびGSM8Kデータセットで最大67.43%のCoT長減少を達成しながら精度を維持することを示しています。特に、8Bモデルでは平均2.73倍の速度向上を記録し、遅延時間やコストに敏感な環境で推論能力を持つLLM展開のための実用的で効率的なツールであることを示唆しています。