본 논문은 Vision-Language Model(VLM) 기반 모바일 에이전트의 보안 취약성을 다룹니다. 특히, 사용자 생성 데이터셋을 이용한 미세 조정 과정에서 발생할 수 있는 은밀한 백도어 공격(GHOST)에 초점을 맞춥니다. GHOST는 레이블이나 명령어를 변경하지 않고, 시각적 입력만 조작하여 모델에 악성 행위를 주입하는 공격 기법입니다. 정상적인 작업 성능을 유지하면서 (최대 95.85% FSR), 특정 시각적 트리거(정적 패치, 동적 모션 큐, 저투명도 오버레이)가 나타날 때 공격자가 제어하는 응답을 유도합니다(최대 94.67% 성공률). 실제 안드로이드 앱 6개와 3가지 VLM 아키텍처를 이용한 실험 결과를 통해 GHOST의 효과성과 은닉성을 검증하였습니다. 이 연구는 VLM 기반 모바일 에이전트의 중요한 보안 결함을 최초로 밝히고, 훈련 파이프라인에 효과적인 방어 메커니즘이 필요함을 강조합니다.