この論文は、事故連鎖(CoT)トークンを生成する推論モデルの脱獄攻撃の脆弱性に関する研究結果を提示します。既存の言語モデルがプロンプト - 応答境界で拒否決定を下すのとは異なり、DeepSeek-R1-Distill-Llama-8Bモデルは、CoT生成プロセス内で拒否決定を下すという証拠を発見しました。研究者は、CoTトークンの生成中に活性化空間でモデルが拒否されるか受け入れられるかを予測する線形方向(注意方向)を確認しました。この方向は、生成されたテキストの慎重な推論パターンと一致します。この方向をモデル活性化から排除すると、有害な収容が増加し、モデルの脱獄が効果的に行われる。また、CoTトークンの有効化のみを操作して最終出力を制御することができ、プロンプトベースの攻撃にこの方向を統合すると成功率が向上することを示しています。結論として、思考連鎖自体が推論モデルに対する敵対的操作の有望な新しい標的であることを示唆する。