[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

JailDAM: Jailbreak Detection with Adaptive Memory for Vision-Language Model

Created by
  • Haebom

저자

Yi Nian, Shenzhe Zhu, Yuehan Qin, Li Li, Ziyi Wang, Chaowei Xiao, Yue Zhao

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 안전한 배포를 위해 탈옥 공격(jailbreak attack) 탐지를 위한 새로운 프레임워크인 JAILDAM을 제안합니다. 기존 방법들의 한계점인 (1) 백색 박스 모델에만 적용 가능, (2) 높은 계산 비용, (3) 충분한 라벨링된 데이터 부족 문제를 해결하기 위해, JAILDAM은 정책 기반의 불안전 지식 표현을 이용한 메모리 기반 접근 방식을 활용합니다. 테스트 시간에 불안전 지식을 동적으로 업데이트하여, 보지 못한 탈옥 전략에도 일반화 성능을 향상시키면서 효율성을 유지합니다. 여러 VLM 탈옥 벤치마크 실험 결과, JAILDAM은 정확도와 속도 모두에서 최첨단 성능을 달성합니다.

시사점, 한계점

시사점:
MLLM의 탈옥 공격 탐지 성능을 크게 향상시키는 새로운 프레임워크 JAILDAM 제시.
백색 박스 모델에 국한되지 않고, 실제 환경에 적용 가능한 효율적인 탐지 방법 제안.
라벨링된 데이터 의존도를 낮추어 데이터 부족 문제 해결에 기여.
테스트 시간에 지식을 동적으로 업데이트하여 새로운 탈옥 전략에 대한 일반화 성능 향상.
한계점:
제안된 방법의 일반화 성능이 얼마나 지속 가능한지에 대한 추가적인 연구 필요.
다양한 MLLM 아키텍처와 탈옥 전략에 대한 로버스트니스 평가 필요.
실제 서비스 환경에서의 성능 평가 및 안정성 검증 필요.
👍