この論文では、大規模言語モデル(LLM)の新しいセキュリティ脅威である広告挿入攻撃(AEA)を紹介します。 AEAは、サードパーティのサービス展開プラットフォームを悪用して敵対的なプロンプトを追加したり、攻撃者データで微調整されたバックドアを持つオープンソースチェックポイントを公開した2つの低コストのベクトルを介して、機密性の高いモデル出力とAIエージェントに宣伝または悪意のあるコンテンツを注入します。従来の精度を低下させる攻撃とは異なり、AEA は情報の整合性を損なうため、モデルは一見正常に見えますが、秘密に広告、宣伝、または憎悪の発言を返すようにします。この論文では、攻撃パイプラインを詳細に説明し、5つの利害関係者の被害者グループをマッピングし、追加のモデルの再訓練なしにこれらの注入を軽減する初期のプロンプトベースの自己検査防御を提示します。調査結果は、LLMセキュリティで緊急かつ未解決の問題を示し、AI安全コミュニティの調整された検出、監査、およびポリシー対応を必要とします。