基于大规模视觉语言模型 (LVLM) 的图形用户界面 (GUI) 代理已成为一种创新方法,可用于自主操作个人设备或应用程序执行复杂的实际任务。然而,它们与个人设备的紧密集成带来了诸多威胁,包括后门攻击,而这些威胁在很大程度上仍未被探索。本研究表明,GUI 代理中将文本计划映射到 GUI 元素的视觉基础存在漏洞,从而引发了一种新型的后门攻击。即使给定了精确的任务解决计划,针对视觉基础的后门攻击也可能破坏代理的行为。为了验证此漏洞,本研究提出了一种名为 VisualTrap 的方法,该方法通过诱骗代理在预期目标以外的触发位置查找文本计划来利用视觉基础。VisualTrap 使用一种常见的方法,即在攻击中注入毒数据,并通过在基于视觉的预训练期间执行此任务来确保攻击的可行性。实验结果表明,VisualTrap 仅需 5% 的中毒数据和高度隐蔽的视觉触发器(人眼不可见)即可有效利用基于视觉的攻击。即使经过仔细的微调,该攻击也可以推广到下游任务。此外,注入的触发器在各种 GUI 环境中均有效,包括在移动/Web 上进行训练并推广到桌面环境。这些结果凸显了进一步研究 GUI 代理后门攻击风险的必要性。