본 논문은 대규모 언어 모델(LLM)의 출력을 안내하는 시스템 프롬프트의 보안 문제를 해결하기 위해 PromptKeeper라는 방어 메커니즘을 제안한다. 시스템 프롬프트는 비즈니스 로직 및 민감한 정보를 포함하는 경우가 많으므로, 악의적인 사용자 질의나 일반적인 사용자 질의를 통해 LLM의 취약점을 악용하여 이러한 프롬프트가 노출될 위험이 있다. PromptKeeper는 프롬프트 유출을 신뢰성 있게 탐지하고, 유출 발생 시 사이드 채널 취약성을 완화하는 두 가지 핵심 과제를 해결한다. 가설 검정 문제로 유출 탐지를 구성하여 명시적 및 미묘한 유출을 효과적으로 식별하고, 유출이 감지되면 더미 프롬프트를 사용하여 응답을 재생성하여 유출이 없는 일반적인 상호 작용과 구분할 수 없도록 한다. 결과적으로 악의적이거나 일반적인 질의를 통한 프롬프트 추출 공격에 대한 강력한 보호를 제공하면서, 일반적인 사용자 상호 작용 시 대화 능력과 실행 효율성을 유지한다.