Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Adversarial Prompt Distillation for Vision-Language Models

Created by
  • Haebom

저자

Lin Luo, Xin Wang, Bojia Zi, Shihao Zhao, Xingjun Ma, Yu-Gang Jiang

개요

본 논문은 대규모 사전 훈련된 시각-언어 모델(VLMs)의 적대적 공격 취약성 문제를 해결하기 위해, 이중 모드 지식 증류 프레임워크인 적대적 프롬프트 증류(APD)를 제안합니다. 기존의 적대적 프롬프트 조정(APT) 방법들이 단일 모드에 국한된 것과 달리, APD는 시각 및 텍스트 모달리티 모두에 대한 프롬프트를 최적화하며, 깨끗한 사전 훈련된 교사 CLIP 모델로부터 지식을 증류합니다. 다양한 벤치마크 데이터셋에서의 실험 결과, APD가 기존 최첨단 APT 방법들보다 적대적 강건성과 깨끗한 정확도 측면에서 우수함을 보여줍니다. 또한 비강건성 교사 모델을 사용하여 미세 조정된 VLMs의 일반화 및 강건성을 향상시킬 수 있음을 입증합니다.

시사점, 한계점

시사점:
이중 모달리티 적대적 프롬프트 조정을 통해 VLMs의 적대적 공격에 대한 강건성을 향상시킬 수 있음을 보여줌.
비강건성 교사 모델을 사용하여 학생 모델의 강건성과 성능을 향상시킬 수 있는 가능성을 제시함.
기존 단일 모달리티 APT 방법보다 향상된 적대적 강건성과 깨끗한 정확도를 달성함.
한계점:
제안된 APD 방법의 효과는 특정 벤치마크 데이터셋과 VLMs에 국한될 수 있음.
APD의 계산 비용이 기존 APT 방법보다 높을 수 있음.
다양한 유형의 적대적 공격에 대한 일반화 성능에 대한 추가적인 연구가 필요함.
👍