每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

GUI-PRA:GUI 任务的流程奖励代理

Created by
  • Haebom

作者

熊涛、胡泽伟、陈雨润、刘宇航、吴长桥、高鹏志、刘伟、栾建、张胜宇

GUI-PRA:GUI 任务的流程补偿代理

大纲

基于多模态大规模语言模型 (MLLM) 的 GUI 代理在任务自动化方面展现出巨大潜力,但在处理长期任务时却往往举步维艰。过程补偿模型 (PRM) 是一种颇具前景的解决方案,可以在推理过程中引导这些代理处理重要的过程信号,但将其应用于 GUI 领域却面临着独特的挑战。在处理包含大量历史数据的密集人工输入时,PRM 容易出现“中途迷失”现象,即过多的过往上下文信息会损害当前阶段的评估。此外,标准 PRM 对 GUI 变化不敏感,提供的静态评估结果与 GUI 任务的动态特性存在固有的矛盾。为了应对这些挑战,我们推出了 GUI-PRA(GUI 任务过程补偿代理),这是一个旨在智能处理历史上下文并主动识别 UI 状态变化的判断代理,从而提供比标准 PRM 更佳的过程补偿。具体来说,为了直接解决“中间遗忘”现象,我们引入了一种动态记忆机制,该机制由一个基于相关性的检索模块(可从长期历史数据中主动检索相关信息)和一个渐进式摘要模块(可动态汇总不断增加的交互数据)组成,从而使模型能够专注于相关的上下文。此外,为了解决 UI 变化感知不足的问题,我们引入了一种自适应 UI 感知机制。该机制使代理能够动态选择最合适的工具来推理 UI 状态变化并收集支持的视觉证据,从而确保评估始终基于当前的 UI 上下文。

Takeaways, Limitations

Takeaways:
GUI-PRA 提出了一种新方法来提高基于 MLLM 的代理在 GUI 任务中的性能。
动态记忆机制解决了“忘记”现象,并帮助代理关注相关的上下文。
自适应 UI 感知机制通过考虑 UI 状态变化来改进代理的评估。
Limitations:
论文缺乏具体的实验结果或性能比较信息。
缺乏实现细节和具体算法的描述。
需要进一步研究来确定所提出的机制的普遍性及其对各种 GUI 任务的适用性。
👍