Sign In

A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1

Created by
  • Haebom
Category
Empty

저자

Zhaoyi Li, Xiaohan Zhao, Dong-Dong Wu, Jiacheng Cui, Zhiqiang Shen

개요

개방형 LVLM에서 좋은 성능을 보인 전이 기반 공격이 폐쇄형 상용 LVLM에서는 실패하는 문제점을 분석하고, 그 원인이 의미 정보의 부재에 있음을 밝힘. 이를 해결하기 위해, 지역별로 의미 정보를 명확하게 인코딩하고 의미적으로 풍부한 영역에 집중하여 수정을 가하는 새로운 공격 방법을 제안. 제안하는 방법은 무작위로 자르고 크기를 조절한 후 임베딩 공간에서 목표 이미지와 정렬하는 간단하지만 효과적인 방식을 사용하며, GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5/3.7-sonnet, o1, Claude-3.7-thinking, Gemini-2.0-flash-thinking과 같은 다양한 상용 LVLM에 대한 높은 전이율을 달성하며 기존 방법들을 능가함.

시사점, 한계점

시사점:
상용 LVLM 공격 성공을 위한 의미 정보의 중요성을 강조.
지역별로 의미 정보를 인코딩하는 간단하지만 효과적인 공격 기법 제시.
다양한 상용 LVLM에 대한 높은 전이율을 통해 제안 방법의 실용성을 입증.
낮은 $\ell_1/\ell_2$ 섭동으로 공격 성공률을 높여 공격의 효율성 향상.
한계점:
구체적인 공격 메커니즘과 관련된 추가적인 분석 및 설명 부족.
다양한 공격 시나리오와 환경에 대한 실험 부족.
방어 기법에 대한 취약성 분석 부재.
👍