基于多模态大规模语言模型 (MLLM) 的 GUI 代理在任务自动化方面展现出巨大潜力,但在处理长期任务时却往往举步维艰。过程补偿模型 (PRM) 是一种颇具前景的解决方案,可以在推理过程中引导这些代理处理重要的过程信号,但将其应用于 GUI 领域却面临着独特的挑战。在处理包含大量历史数据的密集人工输入时,PRM 容易出现“中途迷失”现象,即过多的过往上下文信息会损害当前阶段的评估。此外,标准 PRM 对 GUI 变化不敏感,提供的静态评估结果与 GUI 任务的动态特性存在固有的矛盾。为了应对这些挑战,我们推出了 GUI-PRA(GUI 任务过程补偿代理),这是一个旨在智能处理历史上下文并主动识别 UI 状态变化的判断代理,从而提供比标准 PRM 更佳的过程补偿。具体来说,为了直接解决“中间遗忘”现象,我们引入了一种动态记忆机制,该机制由一个基于相关性的检索模块(可从长期历史数据中主动检索相关信息)和一个渐进式摘要模块(可动态汇总不断增加的交互数据)组成,从而使模型能够专注于相关的上下文。此外,为了解决 UI 变化感知不足的问题,我们引入了一种自适应 UI 感知机制。该机制使代理能够动态选择最合适的工具来推理 UI 状态变化并收集支持的视觉证据,从而确保评估始终基于当前的 UI 上下文。