每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

比较法学硕士和人类的探索-利用策略:来自标准多臂老虎机实验的见解

Created by
  • Haebom

作者

张子远、王达西、陈宁远、罗德里戈·曼苏尔、瓦希德·萨尔汉吉安

大纲

为了研究大规模语言模型 (LLM) 的探索与利用 (E&E) 策略,我们使用了认知科学和精神病学文献中引入的经典多臂老虎机 (MAB) 实验。我们比较了 LLM、人类和 MAB 算法的 E&E 策略,并探究了通过提示策略和心智模型激活思维痕迹如何影响 LLM 的决策。结果表明,激活思维会导致 LLM 出现类似人类的行为变化,在简单环境中表现出类似人类的探索水平。然而,在更复杂、更不稳定的环境中,LLM 在有效的定向探索方面无法与人类的适应性相媲美。

Takeaways, Limitations

虽然 LLM 显示出作为人类行为模拟器和自动决策工具的潜力,但 Limitations 也存在。
当在 LLM 中激活时,它会表现出类似人类的行为,表现出随机和定向探索的混合。
在简单的环境中,它们可以达到类似人类的探索水平,但在复杂的环境中却难以适应。
需要提高LLM的有效导向探索能力。
👍