Sign In

Chameleon: Adaptive Adversarial Agents for Scaling-Based Visual Prompt Injection in Multimodal AI Systems

Created by
  • Haebom
Category
Empty

저자

M Zeeshan, Saud Satti

개요

멀티모달 인공지능(AI) 시스템, 특히 Vision-Language 모델(VLM)이 자율 의사 결정에서 자동 문서 처리에 이르기까지 중요한 애플리케이션에 필수적인 요소가 되었습니다. 이러한 시스템의 규모가 커짐에 따라 다양한 입력을 효율적으로 처리하기 위해 전처리 파이프라인에 크게 의존합니다. 그러나 이미지 다운스케일링과 같은 표준 전처리 작업에 대한 이러한 의존성은 중요하지만 종종 간과되는 보안 취약성을 야기합니다. 계산 최적화를 위해 의도되었지만, 스케일링 알고리즘은 인간 관찰자에게는 보이지 않지만 모델에 의해 처리되면 활성 의미 지침이 되는 악의적인 시각적 프롬프트를 숨기는 데 악용될 수 있습니다. 현재의 적대적 전략은 대부분 정적이며 현대 에이전트 워크플로우의 역동적인 특성을 고려하지 못합니다. 이러한 격차를 해결하기 위해, 우리는 생산 VLM에서 스케일링 취약점을 노출하고 악용하도록 설계된 새로운 적응형 적대적 프레임워크인 카멜레온을 제안합니다. 기존의 정적 공격과 달리 카멜레온은 대상 모델의 실시간 피드백을 기반으로 이미지 방해를 동적으로 개선하는 반복적이고 에이전트 기반의 최적화 메커니즘을 사용합니다. 이를 통해 다운스케일링 작업을 통해 다운스트림 실행을 하이재킹하는 매우 강력한 적대적 예제를 만들 수 있습니다. Gemini 2.5 Flash 모델에 대해 카멜레온을 평가했습니다. 실험 결과, 카멜레온은 다양한 스케일링 요소에서 84.5%의 공격 성공률(ASR)을 달성하여 평균 32.1%에 불과한 정적 기준 공격보다 훨씬 뛰어난 성능을 보였습니다. 또한 이러한 공격이 에이전트 파이프라인을 효과적으로 손상시켜 여러 단계 작업에서 의사 결정 정확도를 45% 이상 감소시키는 것을 보여줍니다. 마지막으로, 이러한 취약점의 영향에 대해 논의하고 필요한 방어 메커니즘으로 다중 스케일 일관성 검사를 제안합니다.

시사점, 한계점

시사점:
이미지 다운스케일링 과정에서 발생하는 보안 취약점을 이용한 공격 가능성을 제시함.
정적 공격보다 효과적인 적응형 적대적 프레임워크인 '카멜레온' 제시.
VLM 기반 에이전트 파이프라인의 의사 결정 정확도를 심각하게 저하시킬 수 있음을 실험적으로 증명.
다중 스케일 일관성 검사를 방어 메커니즘으로 제안.
한계점:
구체적인 방어 메커니즘 구현 및 효과에 대한 추가 연구 필요.
카멜레온 프레임워크의 일반화 가능성 및 다른 VLM 모델에 대한 적용에 대한 추가 실험 필요.
공격이 미치는 실질적인 영향에 대한 추가적인 연구 필요.
👍