本文介绍了 CUAHarm,这是一个用于评估计算机辅助代理 (CUA) 可利用性的全新基准测试,CUA 能够自主控制计算机执行多步骤任务。CUAHarm 包含 104 个专家生成的逼真的漏洞利用场景,包括防火墙禁用、数据泄露和后门安装。它还包含一个沙盒环境,其中包含基于规则的可验证奖励,用于衡量 CUA 操作的成功率。我们评估了包括 GPT-5、Claude 4 Sonnet、Gemini 2.5 Pro、Llama-3.3-70B 和 Mistral Large 2 在内的最先进的 LLM,发现它们在执行恶意操作时成功率很高(例如,Gemini 2.5 Pro 的成功率高达 90%),并且无需越狱提示。我们还发现,之前被现有安全基准测试认为更安全的较新模型,作为 CUA 更容易受到攻击(例如,Gemini 2.5 Pro 比 Gemini 1.5 Pro 更安全)。此外,我们证明,虽然聊天机器人运行时能够有效抵御常见的恶意提示(例如,制造炸弹),但作为 CUA 运行时可能存在安全隐患。我们对领先的代理框架 UI-TARS-1.5 的评估表明,虽然性能有所提升,但漏洞利用的风险也随之增加。为了降低 CUA 的漏洞利用风险,我们探索了一种使用 LLM 监控 CUA 行为的方法,发现这种方法比监控传统的不安全聊天机器人响应更具挑战性。思维过程监控取得了一些性能提升,但平均监控准确率仅为 77%。分层摘要策略可将性能提升高达 13%,但监控仍然不可靠。该基准测试将公开发布,以促进风险缓解研究。