この論文では、大規模言語モデル(LLM)のシステムプロンプトを操作して特定の質問に対してのみ悪意のある回答を生成する新しいセキュリティ脅威である「AI - 人間対話ハイジャック」を提示します。悪意のある行為者は、無害に見えるシステムプロンプトをオンラインに広げて大規模な情報操作を実行する可能性があります。研究者らは、これらの攻撃を実証するために、ブラックボックス設定で特定のターゲット質問に対する悪意のあるシステムプロンプトを自動的に生成するアルゴリズムCAINを開発しました。オープンソースと商用LLMの両方で評価した結果、CAINはターゲット質問に対して最大40%のF1スコア低下を達成しながら、無害な入力の精度を高く保ちました。特定の悪意のある回答を生成するには、70%以上のF1スコアを達成しながら、無害な質問への影響を最小限に抑えました。この結果は、実際のアプリケーションでLLMの整合性と安全性を確保するための強化された堅牢性測定の重要性を強調します。ソースコードは公に提供される予定です。