この論文は、大規模言語モデル(LLM)の出力を導くシステムプロンプトのセキュリティ問題を解決するために、PromptKeeperという防御メカニズムを提案します。システムプロンプトにはビジネスロジックや機密情報が含まれることが多いため、悪意のあるユーザークエリや一般的なユーザークエリを介してLLMの脆弱性を悪用してこれらのプロンプトが公開される危険性があります。 PromptKeeperは、プロンプトの漏洩を確実に検出し、流出が発生したときのサイドチャネルの脆弱性を軽減する2つの重要な課題を解決します。仮説検定の問題で流出検出を構成して明示的および微妙な流出を効果的に識別し、流出が検出されたらダミープロンプトを使用して応答を再生成し、流出のない一般的な相互作用と区別できないようにする。その結果、悪意のあるまたは一般的なクエリを介したプロンプト抽出攻撃に対する強力な保護を提供しながら、一般的なユーザー対話中に会話の能力と実行効率を維持します。