본 논문은 대규모 언어 모델의 주요 보안 위협인 프롬프트 인젝션에 대한 기존 방어 모델의 한계를 지적하고, 새로운 벤치마크인 CAPTURE를 제안합니다. CAPTURE는 문맥 인식 환경에서 공격 탐지 및 과잉 방어 경향을 평가하며, 최소한의 도메인 내 예시를 사용합니다. 실험 결과, 기존 모델은 적대적 상황에서는 높은 위음성(false negative) 비율을, 양성 상황에서는 과도한 위양성(false positive) 비율을 보이는 것으로 나타났습니다. 논문에서는 CAPTURE 데이터셋으로 훈련된 새로운 모델 CaptureGuard를 제시하며, 이 모델이 위음성 및 위양성 비율을 크게 감소시키고 외부 벤치마크에서도 효과적으로 일반화됨을 보여줍니다.