Sign In

Enhancing Adversarial Transferability in Visual-Language Pre-training Models via Local Shuffle and Sample-based Attack

Created by
  • Haebom
Category
Empty

저자

Xin Liu, Aoyang Zhou, Aoyang Zhou

개요

시각-언어 사전 훈련(VLP) 모델은 다양한 다운스트림 작업에서 상당한 성능을 달성했지만, 적대적 예제에 취약하다. 기존 연구는 상호 모달 상호 작용을 통해 다중 모달 적대적 예제의 적대적 전이성을 향상시키는 데 초점을 맞추었지만, 한 모달에서 적대적 예제의 정보에 과도하게 의존하여 다른 모달에서 공격을 생성함으로써 입력 다양성이 부족하여 과적합 문제가 발생했다. 이러한 문제를 해결하기 위해, 본 논문은 일부 적대적 훈련 방법에서 영감을 받아 Local Shuffle and Sample-based Attack (LSSA)라는 새로운 공격을 제안한다. LSSA는 로컬 이미지 블록 중 하나를 무작위로 섞어 원래 이미지-텍스트 쌍을 확장하고 적대적 이미지를 생성하며, 이를 중심으로 샘플링한다. 그런 다음, 원래 이미지와 샘플링된 이미지를 모두 사용하여 적대적 텍스트를 생성한다. 여러 모델과 데이터 세트에 대한 광범위한 실험 결과, LSSA가 다양한 VLP 모델 및 다운스트림 작업에서 다중 모달 적대적 예제의 전이성을 크게 향상시키는 것으로 나타났다. 또한 LSSA는 대형 시각-언어 모델(Large Vision-Language Models)에 대한 다른 고급 공격보다 우수한 성능을 보인다.

시사점, 한계점

LSSA는 VLP 모델의 적대적 전이성을 향상시키는 새로운 공격 방법론을 제시했다.
LSSA는 과적합 문제를 해결하기 위해 로컬 셔플링과 샘플링 기법을 활용했다.
LSSA는 다양한 VLP 모델과 다운스트림 작업에서 우수한 성능을 보였다.
LSSA는 대형 시각-언어 모델에 대한 다른 공격보다 우수한 성능을 보였다.
본 논문은 적대적 공격 방법에 초점을 맞추고 있으며, 모델 방어에 대한 내용은 포함하지 않는다.
특정 공격 방식에 대한 연구이므로, 일반적인 VLP 모델의 취약점을 모두 포괄하지는 않는다.
👍