본 논문은 대규모 언어 모델(LLM)의 심각한 보안 취약점인 프롬프트 주입 공격에 대한 새로운 방어 기법을 제시한다. 기존 방어 기법들은 입력 토큰의 권한 수준을 나타내는 지시어 계층(Instruction Hierarchy, IH) 신호를 주로 초기 입력 계층에만 주입하는 반면, 본 논문에서는 IH 신호를 네트워크 내 중간 토큰 표현에 주입하는 새로운 방법을 제안한다. 이는 계층별로 학습 가능한 임베딩을 사용하여 권한 정보를 인코딩함으로써, 다양한 계층에서의 권한 수준 구분 능력을 향상시킨다. 실험 결과, 기존 최첨단 기법들에 비해 기울기 기반 프롬프트 주입 공격 성공률을 1.6배에서 9.2배까지 감소시키는 것을 확인했다. 모델 유용성 저하 없이 성능 향상을 달성했다는 점이 특징이다.