Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Don't Lag, RAG: Training-Free Adversarial Detection Using RAG

Created by
  • Haebom

저자

Roie Kazoom, Raz Lapid, Moshe Sipper, Ofer Hadar

개요

본 논문은 훈련 없이 적대적 패치 공격을 탐지하는 새로운 프레임워크인 VRAG(Visual Retrieval-Augmented Generation)을 제안합니다. VRAG은 Vision-Language Model(VLM)을 활용하여, 기존의 재훈련이나 미세 조정이 필요한 방어 방법과 달리, 지속적으로 확장되는 데이터베이스에서 시각적으로 유사한 패치 및 이미지를 검색하여 다양한 유형의 공격을 생성적으로 추론하고 탐지합니다. Qwen-VL-Plus, Qwen2.5-VL-72B, UI-TARS-72B-DPO 등 오픈소스 VLM과 Gemini-2.0 (폐쇄형 모델)을 사용하여 실험을 진행하였으며, 오픈소스 모델 중 UI-TARS-72B-DPO가 최대 95%의 정확도를 달성하여 새로운 최고 성능을 기록했습니다. Gemini-2.0은 98%의 정확도를 달성했지만 폐쇄형 모델입니다. VRAG은 최소한의 사람 개입으로 다양한 적대적 패치를 효과적으로 식별하여 진화하는 적대적 패치 공격에 대한 강력하고 실용적인 방어를 위한 길을 열었습니다.

시사점, 한계점

시사점:
훈련이 필요 없는 적대적 패치 탐지 프레임워크 VRAG 제시
오픈소스 VLM을 이용한 높은 정확도의 적대적 패치 탐지 달성 (UI-TARS-72B-DPO: 최대 95%)
최소한의 사람 개입으로 다양한 적대적 패치 탐지 가능
진화하는 적대적 패치 공격에 대한 실용적인 방어 전략 제시
한계점:
최고 성능을 달성한 Gemini-2.0 모델은 폐쇄형 모델임. 오픈소스 모델의 성능 향상 필요.
데이터베이스의 지속적인 확장 및 관리에 대한 고려 필요.
다양한 유형의 적대적 패치 공격에 대한 일반화 성능 평가 추가 필요.
실제 환경에서의 성능 검증 및 robustness 평가 추가 필요.
👍