본 논문은 오픈소스 대규모 비전-언어 모델(LVLMs)에서는 효과적이지만, 블랙박스 상용 LVLMs에 대해서는 효과가 떨어지는 전이 기반 표적 공격의 문제점을 해결하는 새로운 방법을 제시합니다. 기존의 전이 기반 공격은 생성된 적대적 섭동이 의미론적 정보가 부족하여 상용 LVLMs가 무시하거나 잘못 해석하기 때문에 실패하는 경향이 있습니다. 본 논문에서는 이 문제를 해결하기 위해, 중요 영역에 집중된 국소적 집계 섭동을 사용하는 새로운 방법을 제안합니다. 구체적으로, 각 최적화 단계에서 적대적 이미지를 임의로 자르고 크기를 조정한 후, 임베딩 공간에서 타겟 이미지와 정렬하는 방식입니다. 이를 통해 의미론적으로 풍부한 영역에 변형을 집중시켜, 상용 LVLMs에서의 전이성을 크게 향상시킬 수 있습니다. 실험 결과, GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, o1, Claude-3.7-thinking, Gemini-2.0-flash-thinking 등 다양한 상용 LVLMs에 대해 90% 이상의 성공률을 달성하여 기존 최첨단 공격 방법들을 능가하는 성능을 보였습니다.