본 논문은 Vision-Language Model(VLM) 기반 모바일 에이전트에 대한 최초의 청정 레이블 백도어 공격인 GHOST를 제시한다. GHOST는 사용자 생성 데이터셋의 일부 시각적 입력만 조작하여(레이블이나 지시사항 변경 없이) 모델에 악성 행위를 주입한다. 특정 시각적 트리거가 추론 시 입력되면 공격자가 제어하는 응답을 보이도록 한다. 이를 위해 중독된 샘플의 기울기를 목표 인스턴스의 기울기와 정렬시켜 백도어 관련 특징을 중독된 훈련 데이터에 포함시키는 방법을 사용한다. 은밀성과 강건성을 높이기 위해 정적 시각 패치, 동적 모션 큐, 미세한 저 불투명도 오버레이라는 세 가지 현실적인 시각적 트리거를 개발했다. 6개의 실제 안드로이드 앱과 3개의 모바일용 VLM 아키텍처에서 평가한 결과, 높은 공격 성공률(최대 94.67%)과 높은 정상 작업 성능(FSR 최대 95.85%)을 달성했다. 또한, 다양한 설계 선택이 공격의 효과와 은폐에 미치는 영향을 분석하는 실험도 수행했다. 본 연구는 VLM 기반 모바일 에이전트의 심각한 보안 취약점을 최초로 밝히고, 훈련 파이프라인에서 효과적인 방어 메커니즘의 시급한 필요성을 강조한다.