Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MirrorGuard: Adaptive Defense Against Jailbreaks via Entropy-Guided Mirror Crafting

Created by
  • Haebom
Category
Empty

저자

Rui Pu, Chaozhuo Li, Rui Ha, Litian Zhang, Lirong Qiu, Xi Zhang

개요

본 논문은 대규모 언어 모델(LLM)의 탈옥 공격 방어를 위한 새로운 방어 기법인 MirrorGuard를 제안합니다. 기존의 정적 기준에 기반한 방어 전략의 한계를 극복하기 위해, 입력 프롬프트의 구문 구조를 유지하면서 의미적 안전성을 보장하는 동적으로 생성된 프롬프트인 "mirror" 개념을 도입했습니다. 입력 프롬프트와 해당 mirror 간의 차이를 활용하여 위험한 입력을 감지하고 보정하는 새로운 방어 패러다임을 제시하며, 상대적 입력 불확실성(RIU)이라는 엔트로피 기반 탐지 지표를 통합하여 성능을 향상시켰습니다. 다양한 데이터셋에서의 실험 결과, MirrorGuard는 최첨단 방어 성능을 보이며 일반적인 효과성을 유지함을 보여줍니다.

시사점, 한계점

시사점:
동적이고 적응적인 LLM 탈옥 공격 방어 기법 제시
기존 정적 규칙 기반 방어의 한계 극복
"mirror" 개념을 활용한 새로운 방어 패러다임 제시
엔트로피 기반 탐지 지표(RIU)를 통한 성능 향상
다양한 데이터셋에서의 우수한 성능 검증
한계점:
Mirror 생성 및 RIU 계산의 계산 비용에 대한 분석 부족
다양한 유형의 LLM과 탈옥 공격에 대한 일반화 가능성에 대한 추가 연구 필요
MirrorGuard의 robustness 와 adversarial attack 에 대한 저항성에 대한 추가적인 실험 필요
실제 환경 적용 시 발생 가능한 문제점 및 해결 방안에 대한 논의 부족
👍