本論文は、大規模言語モデルベースの自律エージェントのプロンプトエンジニアリングの利便性と、それによる安全性、堅牢性、行動の一貫性の問題を提起する。特に、プロンプトがユーザーの悪意のある試みにさらされる危険性に焦点を当て、エージェントをハッキングしてシステム命令と内部情報を公開する「Doppelgangerメソッド」を提案します。その攻撃に対する脆弱性を評価するための「Prompt Alignment Collapse under Adversarial Transfer(PACAT)」レベルを定義し、Doppelgangerメソッドに対応する「Caution for Adversarial Transfer(CAT)」プロンプトを提示します。実験の結果、Doppelgangerメソッドがエージェントの一貫性を阻害し、内部情報を公開する可能性があり、CATプロンプトがこれらの敵対的な攻撃に対して効果的に防御できることを実証した。