Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

HauntAttack: When Attack Follows Reasoning as a Shadow

Created by
  • Haebom

作者

Jingyuan Ma, Rui Li, Zheng Li, Junfeng Liu, Lei Sha, Zhifang Sui

概要

Emerging Large Reasoning Models (LRMs) は数学と推論作業で優れた性能を発揮しますが、推論能力の向上と内部推論プロセスの暴露は新しい安全性の脆弱性を引き起こします。本論文は、これらのLRMが有害性に関連している場合、推論モードでジャイルブレークに対してより脆弱になるかどうかを調べます。 HauntAttackという新しいブラックボックス敵対攻撃フレームワークを導入し、有害なガイダンスを推論質問に体系的に挿入する。既存の質問の重要な推論条件を有害なガイダンスに変更し、モデルが有害な出力に向くように段階的に導く推論経路を構築します。 11個のLRMに対する評価の結果、HauntAttackは平均70%の攻撃成功率を示し、既存最強のベースラインより最大12%pの絶対的な性能向上を達成した。安全アライメントモデルでさえ、推論ベースの攻撃に対して非常に脆弱であり、これは将来のモデル開発における推論能力と安全性のバランスをとる緊急の課題を提示する。

Takeaways、Limitations

Takeaways:
LRMの推論能力の向上は安全の脆弱性を高める可能性があります。
HauntAttackは、LRMの安全性をテストする効果的なブラックボックス攻撃フレームワークです。
安全アライメントモデルも推論ベースの攻撃に対して脆弱です。
将来モデルの開発において、推論能力と安全性のバランスが重要である。
Limitations:
本論文に具体的なLimitationsは記載されていない。
👍