Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Doppelganger Method: Breaking Role Consistency in LLM Agent via Prompt-based Transferable Adversarial Attack

Created by
  • Haebom

作者

大園庵、慶濱新、ドヨンキム、九龍鄭、弘宏

概要

本論文は、大規模言語モデルベースの自律エージェントのプロンプトエンジニアリングの利便性と、それによる安全性、堅牢性、行動の一貫性の問題を提起する。特に、プロンプトがユーザーの悪意のある試みにさらされる危険性に焦点を当て、エージェントをハッキングしてシステム命令と内部情報を公開する「Doppelgangerメソッド」を提案します。その攻撃に対する脆弱性を評価するための「Prompt Alignment Collapse under Adversarial Transfer(PACAT)」レベルを定義し、Doppelgangerメソッドに対応する「Caution for Adversarial Transfer(CAT)」プロンプトを提示します。実験の結果、Doppelgangerメソッドがエージェントの一貫性を阻害し、内部情報を公開する可能性があり、CATプロンプトがこれらの敵対的な攻撃に対して効果的に防御できることを実証した。

Takeaways、Limitations

Takeaways:
大規模言語モデルベースのエージェントのプロンプトの安全性と堅牢性に対する深刻な脅威を提示します。
Doppelgangerメソッドを介して敵対攻撃の実際の危険性を示しています。
CATプロンプトなどの防御メカニズムの開発の重要性を強調する。
PACATレベルを通じてプロンプトの脆弱性を定量的に評価するための基準を提供します。
Limitations:
CATプロンプトの効果は、特定の攻撃の種類とエージェントの実装によって異なります。
さまざまな種類の敵対的攻撃に対する一般化された防御戦略はまだ欠けています。
実験環境の制限により、実際の環境における一般化の可能性に関するさらなる研究が必要である。
👍