Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

On the Feasibility of Hijacking MLLMs' Decision Chain via One Perturbation

Created by
  • Haebom
Category
Empty

저자

Changyue Li, Jiaying Li, Youliang Yuan, Jiaming He, Zhicong Huang, Pinjia He

개요

본 논문은 기존의 단일 결정 조작에 초점을 맞춘 적대적 공격의 한계를 지적하고, 결정의 시퀀스에서 전체 결정 체인을 하이재킹할 수 있는 새로운 위협을 제시한다. 구체적으로, 단일 방해를 통해 모델의 출력을 여러 미리 정의된 결과로 조작하는 가능성을 보여준다. 이러한 위협을 노출하기 위해, 입력의 의미에 따라 다양한 결과를 유도하는 Semantic-Aware Universal Perturbations (SAUPs)를 제안하고, 효과적인 알고리즘과 새로운 실제 이미지 데이터 세트 RIST를 개발하여 SAUPs의 실질적인 위협을 평가한다. 3개의 멀티모달 대규모 언어 모델에 대한 실험을 통해 SAUPs가 70%의 공격 성공률을 달성함을 입증했다.

시사점, 한계점

시사점:
단일 방해로 여러 목표를 동시에 조작하는 새로운 적대적 공격 기법 SAUPs 제시.
결정 시퀀스를 가진 모델의 취약성을 지적하고, 실제적인 공격 성공률을 입증.
새로운 실제 이미지 데이터 세트 RIST를 통해 실질적인 위협 평가.
멀티모달 대규모 언어 모델의 취약성을 발견하고, 안전성 연구의 중요성을 강조.
한계점:
SAUPs의 일반화 능력 및 다른 모델 아키텍처에 대한 적용 가능성 추가 연구 필요.
방해의 탐지 및 방어 메커니즘 개발에 대한 추가적인 연구 필요.
실제 환경에서 공격의 실행 가능성 및 영향에 대한 추가적인 분석 필요.
👍