본 논문은 대규모 언어 모델(LLM)의 프롬프트 주입 공격에 대한 새로운 탐지 모델인 Sentinel을 소개합니다. Sentinel은 ModernBERT-large 아키텍처를 기반으로 하며, 다양한 공격 유형(역할극, 지시 탈취, 편향된 콘텐츠 생성 시도 등)과 다양한 양성 지시어를 포함하는 광범위한 데이터셋으로 미세 조정되었습니다. 내부 테스트 세트에서 평균 정확도 0.987, F1 점수 0.980을 달성했으며, 공개 벤치마크에서도 protectai/deberta-v3-base-prompt-injection-v2 와 같은 기존 모델들을 능가하는 성능을 보였습니다. 논문에서는 Sentinel의 아키텍처, 데이터셋 구성, 훈련 방법론 및 평가 결과를 자세히 설명합니다.