본 논문은 프롬프트 주입 및 관련된 제일브레이크 공격에 취약한 대규모 언어 모델(LLM)의 문제점을 해결하기 위해 맥락적 무결성 검증(CIV)이라는 새로운 보안 아키텍처를 제시합니다. CIV는 각 토큰에 암호화 서명된 출처 레이블을 붙이고, 전-소프트맥스 하드 어텐션 마스크를 통해 트랜스포머 내부에 출처 신뢰도 위계를 적용하여 작동합니다. 이는 동결된 모델에서 토큰 간의 결정적 비간섭성을 보장하며, 신뢰도가 낮은 토큰이 신뢰도가 높은 표현에 영향을 미치지 못하게 합니다. 실험 결과, 최신 프롬프트 주입 공격 벡터를 기반으로 한 벤치마크에서 CIV는 공격 성공률 0%를 달성하면서, 토큰 유사도 93.1%를 유지하고 정상적인 작업에서는 모델 perplexity 저하를 보이지 않았습니다. Llama-3-8B와 Mistral-7B에 대한 적용 결과도 제시하며, 참조 구현, 자동 인증 도구, 그리고 Elite-Attack 코퍼스를 공개하여 재현 가능한 연구를 지원합니다.