대규모 시각-언어 모델(LVLMs) 기반 그래픽 사용자 인터페이스(GUI) 에이전트는 개인 기기 또는 애플리케이션을 자율적으로 작동하여 복잡한 실제 작업을 수행하는 혁신적인 접근 방식으로 떠올랐습니다. 하지만 개인 기기와의 긴밀한 통합으로 인해 백도어 공격을 포함한 많은 위협이 존재하며, 이러한 위협은 대부분 탐구되지 않았습니다. 본 연구는 GUI 에이전트가 텍스트 계획을 GUI 요소에 매핑하는 시각적 기반이 취약성을 유발하여 새로운 유형의 백도어 공격을 가능하게 함을 밝힙니다. 시각적 기반을 대상으로 하는 백도어 공격을 통해 정확한 작업 해결 계획이 주어지더라도 에이전트의 동작이 손상될 수 있습니다. 이러한 취약성을 검증하기 위해, 본 연구는 에이전트가 의도된 대상이 아닌 트리거 위치에 텍스트 계획을 찾도록 유도하여 기반을 탈취할 수 있는 VisualTrap이라는 방법을 제안합니다. VisualTrap은 공격에 중독된 데이터를 주입하는 일반적인 방법을 사용하며, 시각적 기반의 사전 훈련 중에 이 작업을 수행하여 공격의 실현 가능성을 보장합니다. 실험 결과, VisualTrap은 5%의 중독된 데이터와 매우 은밀한 시각적 트리거(사람의 눈에는 보이지 않음)를 사용하여 시각적 기반을 효과적으로 탈취할 수 있으며, 이 공격은 정리된 미세 조정 후에도 다운스트림 작업으로 일반화될 수 있음을 보여줍니다. 또한, 주입된 트리거는 모바일/웹에서 훈련되고 데스크톱 환경으로 일반화되는 등 다양한 GUI 환경에서 효과적일 수 있습니다. 이러한 결과는 GUI 에이전트의 백도어 공격 위험에 대한 추가 연구의 필요성을 강조합니다.