Sign In

Sentra-Guard: A Multilingual Human-AI Framework for Real-Time Defense Against Adversarial LLM Jailbreaks

Created by
  • Haebom
Category
Empty

저자

Md. Mehedi Hasan, Ziaur Rahman, Rafid Mostafiz, Md. Abir Hossain

Sentra-Guard: 실시간 모듈형 방어 시스템

개요

본 논문은 대규모 언어 모델(LLM)에 대한 탈옥 및 프롬프트 주입 공격을 탐지하고 완화하는 실시간 모듈형 방어 시스템인 Sentra-Guard를 제시합니다. 이 시스템은 프롬프트의 의미적 의미를 포착하는 FAISS-색인 SBERT 임베딩 표현과 양성 및 적대적 언어 입력을 구별하도록 특화된 미세 조정된 변환기 분류기를 결합한 하이브리드 아키텍처를 사용합니다. 직접 및 난독화된 공격 벡터 모두에서 적대적 프롬프트를 식별합니다. 핵심 혁신은 내용 및 컨텍스트를 기반으로 프롬프트가 적대적일 가능성을 추정하는 컨텍스트 인식 위험 점수를 동적으로 계산하는 분류기-검색기 융합 모듈입니다. 이 프레임워크는 언어에 구애받지 않는 전처리 계층을 통해 다국어 탄력성을 보장합니다. 이 구성 요소는 비영어 프롬프트를 자동으로 영어로 번역하여 의미적 평가를 가능하게 하여 100개 이상의 언어에서 일관된 탐지를 가능하게 합니다. 이 시스템에는 자동 시스템에서 내린 결정을 인간 전문가가 검토하여 지속적인 학습과 적대적 압력 하에서 빠른 적응을 위한 HITL 피드백 루프가 포함되어 있습니다. Sentra-Guard는 양성 및 악성 프롬프트의 진화하는 이중 레이블 지식 기반을 유지하여 탐지 신뢰도를 높이고 오탐을 줄입니다. 평가 결과 99.96%의 탐지율(AUC = 1.00, F1 = 1.00)과 0.004%의 공격 성공률(ASR)을 보였습니다. 이는 LlamaGuard-2(1.3%) 및 OpenAI Moderation(3.7%)과 같은 주요 기준선을 능가합니다. 블랙 박스 접근 방식과 달리 Sentra-Guard는 투명하고, 미세 조정이 가능하며, 다양한 LLM 백엔드와 호환됩니다. 모듈형 설계는 상업 및 오픈 소스 환경 모두에서 확장 가능한 배포를 지원합니다. 이 시스템은 적대적 LLM 방어에서 새로운 최고 수준을 확립합니다.

시사점, 한계점

시사점:
99.96%의 높은 탐지율 및 0.004%의 낮은 공격 성공률을 달성하여 기존 방어 시스템보다 우수한 성능을 보임
다국어 지원을 통해 다양한 언어 환경에서 활용 가능
투명하고 미세 조정이 가능한 구조로, 다양한 LLM 백엔드와 호환성 확보
HITL 피드백 루프를 통한 지속적인 학습 및 적응 능력 보유
상업 및 오픈 소스 환경 모두에 적용 가능한 확장 가능한 모듈형 설계
한계점:
논문 내에서 구체적인 한계점에 대한 언급은 없음
👍