Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Adversarial Manipulation of Reasoning Models using Internal Representations

Created by
  • Haebom

作者

クレハ山口、ベンジャミンエテリッジ、アンディアルディティ

概要

この論文は、事故連鎖(CoT)トークンを生成する推論モデルの脱獄攻撃の脆弱性に関する研究結果を提示します。既存の言語モデルがプロンプト - 応答境界で拒否決定を下すのとは異なり、DeepSeek-R1-Distill-Llama-8Bモデルは、CoT生成プロセス内で拒否決定を下すという証拠を発見しました。研究者は、CoTトークンの生成中に活性化空間でモデルが拒否されるか受け入れられるかを予測する線形方向(注意方向)を確認しました。この方向は、生成されたテキストの慎重な推論パターンと一致します。この方向をモデル活性化から排除すると、有害な収容が増加し、モデルの脱獄が効果的に行われる。また、CoTトークンの有効化のみを操作して最終出力を制御することができ、プロンプトベースの攻撃にこの方向を統合すると成功率が向上することを示しています。結論として、思考連鎖自体が推論モデルに対する敵対的操作の有望な新しい標的であることを示唆する。

Takeaways、Limitations

Takeaways:
事故連鎖(CoT)生成プロセスが推論モデルの脱獄攻撃に対する脆弱性を持っていることを明らかにした。
モデルの拒否/承認決定に影響を与える「注意」の方向をアクティブ空間で確認し、それを操作してモデルの出力を制御できることを示しています。
CoTトークン活性化のみを操作して最終出力を制御できる可能性を提示。
プロンプトベースの攻撃に「注意」方向を組み込むことで成功率を高めることができるように見えます。
事故連鎖自体が推論モデルに対する新たな敵対的攻撃標的となる可能性があることを提示した。
Limitations:
特定のモデル(DeepSeek-R1-Distill-Llama-8B)の研究結果であるため、他のモデルにも同様に適用できるかどうかの一般化の可能性は限られています。
「注意」方向の正確なメカニズムとモデル内部動作の追加分析が必要です。
提示された攻撃技術の実際の世界適用性と危険性に関するさらなる研究が必要です。
👍