每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

UI-S1:通过半在线强化学习推进 GUI 自动化

Created by
  • Haebom

作者

路正熙、叶家博、唐飞、沉永亮、徐海洋、郑子伟、路伟明、严明、黄飞、肖军、庄月婷

大纲

本文研究了一种通过强化学习自动执行复杂用户界面交互的图形用户界面 (GUI) 代理。传统的离线强化学习虽然能够实现稳定的训练,但缺乏执行多步骤任务所需的奖励信号。在线强化学习可以捕捉这些信号,但存在奖励稀疏和部署成本高的问题。为了解决这个问题,本文提出了一种新的范式——半在线强化学习,它能够在离线路径上模拟在线强化学习。在每次部署过程中,多轮对话中的原始模型输出会被保留,并使用一个补丁模块自适应地恢复部署路径和专家路径之间的差异。为了捕捉长期训练信号,我们将未来收益折现引入奖励计算,并利用加权步骤级和事件级优势实现策略优化。此外,本文还引入了半在线性能 (SOP),这是一种更符合实际在线性能的指标,可以作为评估真实环境的实用且有效的替代指标。实验结果表明,所提出的半在线强化学习在四个动态基准测试中取得了 7B 模型中的最佳性能,相比基线模型实现了显著的性能提升(例如,在 AndroidWorld 上提升了 12.0%,在 AITW 上提升了 23.8%)。这标志着在缩小离线训练效率与在线多轮推理之间的差距方面取得了显著进展。代码可在https://github.com/X-PLUG/MobileAgent/tree/main/UI-S1获取。

Takeaways,Limitations

Takeaways:
一种半在线强化学习的提案,它将离线强化学习的稳定性与在线强化学习的多步骤任务执行能力相结合。
通过自适应恢复和折扣未来回报捕获长期训练信号,以及通过补丁模块进行推出和专家路径。
提出的半在线性能 (SOP) 指标与实际在线性能非常接近。
通过在各种基准测试中与现有模型相比改进的性能来展示实用性。
Limitations:
需要进一步验证所提出方法的泛化性能。
需要对各种尺寸的模型进行性能评估和比较分析。
需要进一步研究来确定 SOP 指标与实际在线性能之间的精确相关性。
需要分析Patch Module的复杂性和计算成本。
👍