每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

法学硕士作为政策无关的队友:异构代理团队的人类代理设计案例研究

Created by
  • Haebom

作者

阿朱·阿尼·贾斯特斯、克里斯·巴伯

大纲

异构智能体团队建模的一个关键挑战是训练智能体与缺乏策略访问权限或行为难以预测的队友(例如人类)协作。为了解决现有方法依赖于直接涉及人类的数据的可扩展性问题,本文提出了一种生成模拟人类决策的合成数据的方法,该方法通过使用大规模语言模型 (LLM) 作为策略无关的人类代理。本研究通过三个实验评估了该方法,实验在一个网格世界捕获游戏中进行,该游戏的灵感来自“猎鹿”(一种平衡风险与回报的博弈论范式)。实验结果表明,LLM 与专家的匹配度高于人类参与者,当被要求采取风险敏感型策略时,它们表现出规避风险或寻求风险的行为。此外,它们在动态网格世界中生成的轨迹与人类参与者的轨迹相似。

Takeaways, Limitations

Takeaways:
LLM 能够有效地生成模仿独立于政策的团队成员(例如人类)行为的合成数据。
LLM 获得了游戏状态观察和奖励结构作为提示,并表现出与专家决策的一致性。
当被提示时,LLM 成功模仿了风险敏感行为。
LLM 在动态环境中生成类似人类的轨迹。
LLM 为模拟与政策无关的团队成员提供了可扩展的基础。
Limitations:
法学硕士尚未完全复制人类的适应能力。
👍