Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents
Created by
Haebom
저자
Xuan Wang, Siyuan Liang, Zhe Liu, Yi Yu, Aishan Liu, Yuliang Lu, Xitong Gao, Ee-Chien Chang
개요
본 논문은 시각-언어 모델(VLMs) 기반 모바일 에이전트에 대한 새로운 백도어 공격 기법인 VIBMA를 제시한다. VIBMA는 텍스트 입력을 변경하지 않고 시각적 입력만 조작하여 백도어를 심는다. 특정 시각적 패턴(트리거)을 추가하면 공격자가 지정한 악성 행위가 실행된다. 정적 패치, 동적 모션 패턴, 저투명도 혼합 콘텐츠 등 세 가지 트리거 변형을 설계하여 현실적인 공격 시나리오를 모방하고, 여섯 개의 안드로이드 애플리케이션과 세 개의 모바일 호환 VLMs를 사용한 실험을 통해 높은 성공률(최대 94.67%)과 정상 동작 유지(최대 95.85%)를 확인하였다. 이 연구는 모바일 에이전트의 보안 취약성과 백도어 공격에 대한 취약성을 최초로 밝히고, 모바일 에이전트 적응 파이프라인에 대한 강력한 방어의 필요성을 강조한다.