본 논문은 대규모 언어 모델(LLM)에 대한 탈옥 및 프롬프트 주입 공격을 탐지하고 완화하는 실시간 모듈형 방어 시스템인 Sentra-Guard를 제시합니다. 이 시스템은 프롬프트의 의미적 의미를 포착하는 FAISS-색인 SBERT 임베딩 표현과 양성 및 적대적 언어 입력을 구별하도록 특화된 미세 조정된 변환기 분류기를 결합한 하이브리드 아키텍처를 사용합니다. 직접 및 난독화된 공격 벡터 모두에서 적대적 프롬프트를 식별합니다. 핵심 혁신은 내용 및 컨텍스트를 기반으로 프롬프트가 적대적일 가능성을 추정하는 컨텍스트 인식 위험 점수를 동적으로 계산하는 분류기-검색기 융합 모듈입니다. 이 프레임워크는 언어에 구애받지 않는 전처리 계층을 통해 다국어 탄력성을 보장합니다. 이 구성 요소는 비영어 프롬프트를 자동으로 영어로 번역하여 의미적 평가를 가능하게 하여 100개 이상의 언어에서 일관된 탐지를 가능하게 합니다. 이 시스템에는 자동 시스템에서 내린 결정을 인간 전문가가 검토하여 지속적인 학습과 적대적 압력 하에서 빠른 적응을 위한 HITL 피드백 루프가 포함되어 있습니다. Sentra-Guard는 양성 및 악성 프롬프트의 진화하는 이중 레이블 지식 기반을 유지하여 탐지 신뢰도를 높이고 오탐을 줄입니다. 평가 결과 99.96%의 탐지율(AUC = 1.00, F1 = 1.00)과 0.004%의 공격 성공률(ASR)을 보였습니다. 이는 LlamaGuard-2(1.3%) 및 OpenAI Moderation(3.7%)과 같은 주요 기준선을 능가합니다. 블랙 박스 접근 방식과 달리 Sentra-Guard는 투명하고, 미세 조정이 가능하며, 다양한 LLM 백엔드와 호환됩니다. 모듈형 설계는 상업 및 오픈 소스 환경 모두에서 확장 가능한 배포를 지원합니다. 이 시스템은 적대적 LLM 방어에서 새로운 최고 수준을 확립합니다.