안전 지향 언어 모델은 무해한 프롬프트를 거부하는 경우가 많다. 기존 평가는 전반적인 거부율만 보고하며, 동일한 의도를 가진 다양한 표현에 대한 모델의 일관성 부족(semantic confusion)을 간과한다. 본 연구는 이러한 국소적 비일관성을 포착하는 "semantic confusion"을 소개하고, 이를 측정하기 위한 프레임워크를 제안한다. 10,000개의 프롬프트로 구성된 ParaGuard 데이터셋을 구축하여, 표면적인 형태를 변경하면서 의도를 고정한다. 또한, Confusion Index, Confusion Rate, Confusion Depth의 세 가지 모델 독립적 토큰 레벨 지표를 제안하여, 거부된 응답과 가장 가까운 수용된 응답을 비교한다. 다양한 모델과 배포 가드를 대상으로 실험한 결과, 전반적인 거부율은 중요한 구조를 숨기고, 모델의 불안정한 경계, 국소적 비일관성 등을 드러냈다. 또한 혼란을 인지하는 감사는 시스템이 얼마나 자주 거부하는지와 얼마나 합리적으로 거부하는지를 분리하여 개발자가 안전성을 유지하면서 거짓 거부를 줄일 수 있는 실질적인 신호를 제공한다.