每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

让自我改进的代理能够在测试时通过人机交互指导进行学习

Created by
  • Haebom

作者

何雨霏、李若愚、Alex Chen、刘悦、陈玉林、隋媛、陈成、朱毅、Luca Luo、Frank Yang、Bryan Hooi

ARIA:自适应反射交互代理

大纲

本文介绍了自适应反射交互智能体 (ARIA) 框架,该框架旨在应对大规模语言模型 (LLM) 智能体在规则和领域知识频繁变化的环境中面临的挑战。ARIA 旨在在测试过程中持续学习更新的领域知识。它通过结构化的自我对话评估自身的不确定性,识别知识缺口,并向人类专家请求有针对性的澄清或更正。它会在人工指导下系统地更新其内部带有时间戳的知识库,并通过比较和解释查询来检测和解决冲突或过时的知识。我们在 TikTok Pay 的客户尽职调查姓名验证任务和公开的动态知识任务上对 ARIA 进行了评估,结果表明,与使用标准离线微调和现有自我改进智能体的基准模型相比,ARIA 在适应性和准确性方面有显著提升。ARIA 已部署在 TikTok Pay 上,该平台每月服务超过 1.5 亿活跃用户,证明了其在快速变化的环境中运营的实用性和有效性。

Takeaways, Limitations

Takeaways:
ARIA 提出了一种新方法来提高 LLM 代理在不断变化的环境中的适应性。
ARIA 展示了利用人类专家的知识来评估自身的不确定性和更新其知识的能力。
ARIA 已在现实环境 TikTok Pay 中成功部署,证明了其实用性。
Limitations:
ARIA 的性能依赖于人类专家的协助。
ARIA 的有效性取决于其内部知识库的管理和更新方式。
ARIA 的通用性在应用于不同环境时需要进一步评估。
👍