Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1

Created by
  • Haebom
Category
Empty

저자

Zhaoyi Li, Xiaohan Zhao, Dong-Dong Wu, Jiacheng Cui, Zhiqiang Shen

개요

본 논문은 오픈소스 대규모 비전-언어 모델(LVLMs)에서는 효과적이지만, 블랙박스 상용 LVLMs에 대해서는 효과가 떨어지는 전이 기반 표적 공격의 문제점을 해결하는 새로운 방법을 제시합니다. 기존의 전이 기반 공격은 생성된 적대적 섭동이 의미론적 정보가 부족하여 상용 LVLMs가 무시하거나 잘못 해석하기 때문에 실패하는 경향이 있습니다. 본 논문에서는 이 문제를 해결하기 위해, 중요 영역에 집중된 국소적 집계 섭동을 사용하는 새로운 방법을 제안합니다. 구체적으로, 각 최적화 단계에서 적대적 이미지를 임의로 자르고 크기를 조정한 후, 임베딩 공간에서 타겟 이미지와 정렬하는 방식입니다. 이를 통해 의미론적으로 풍부한 영역에 변형을 집중시켜, 상용 LVLMs에서의 전이성을 크게 향상시킬 수 있습니다. 실험 결과, GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, o1, Claude-3.7-thinking, Gemini-2.0-flash-thinking 등 다양한 상용 LVLMs에 대해 90% 이상의 성공률을 달성하여 기존 최첨단 공격 방법들을 능가하는 성능을 보였습니다.

시사점, 한계점

시사점:
상용 LVLMs에 대한 전이 기반 적대적 공격의 효과성을 크게 향상시키는 새로운 방법을 제시.
국소적 집계 섭동을 통해 의미론적 정보를 효과적으로 활용하여 공격 성공률을 높임.
다양한 상용 LVLMs(GPT-4.5, GPT-4o, Gemini 시리즈, Claude 시리즈 등)에 대해 높은 성공률을 달성.
개선된 적대적 예시와 코드를 공개하여 연구 재현성 및 확장성 확보.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 유형의 상용 LVLMs에 대한 공격 효과의 차이에 대한 분석 필요.
방법의 계산 비용 및 복잡성에 대한 평가 필요.
👍