本論文は、大規模言語モデル(LLM)の安全装置を迂回し、有害な応答を誘発する「脱獄攻撃(jailbreak attacks)」に対する新しい自動化されたフレームワークであるGeneral Adversarial Suffix Prompter(GASP)を提示します。従来の受動的方法または最適化ベースの攻撃の限界(一般化の難しさ、非自然なプロンプトの生成、高い計算コスト)を克服するために、GASPは、連続的な潜在的な埋め込みスペースを効率的に探索する潜在的なベイジアン最適化を活用して、人間が読める脱獄プロンプトを生成します。目標指向の繰り返し改善手順により、プロンプトの一貫性を維持しながら攻撃効果を向上させます。実験の結果,GASPは,従来の方法よりも脱獄成功率を高め,訓練時間と推論速度を短縮する効率的でスケーラブルなソリューションであることを示した。