본 논문은 프롬프트 주입 공격에 대한 방어 모델인 프롬프트 가드 모델의 과잉 방어 문제를 해결하기 위해 새로운 평가 데이터셋 NotInject과 프롬프트 가드 모델 InjecGuard를 제안합니다. NotInject 데이터셋은 프롬프트 주입 공격에 자주 사용되는 트리거 단어를 포함한 339개의 악성이 아닌 샘플로 구성되어 있으며, 기존 최첨단 모델들의 과잉 방어 문제를 명확히 보여줍니다. InjecGuard는 새로운 훈련 전략인 MOF(Mitigating Over-defense for Free)를 사용하여 트리거 단어에 대한 편향을 줄이고, NotInject 및 다른 벤치마크에서 기존 최고 모델보다 30.8% 향상된 성능을 보입니다. 코드와 데이터셋은 공개적으로 제공됩니다.