每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

法学硕士的风险分析与调节

Created by
  • Haebom

作者

王一凯、李晓成、陈冠婷

大纲

大规模语言模型 (LLM) 越来越多地用于不确定环境下的决策,但对其风险状况(包括它们如何受到提示和校准方法的影响)的研究仍然匮乏。本研究提出了一种新颖的流程,用于诱导、操纵和调整 LLM 的风险状况,并利用行为经济学和金融工具。我们使用效用理论模型比较了预训练、引导调整和 RLHF 校准的 LLM。虽然引导调整模型表现出与一些标准效用公式一致的行为,但预训练和 RLHF 校准模型往往与随机效用模型的偏差更大。此外,我们评估了条件反射策略,包括提示工程、情境学习和后训练,发现后训练能够最稳定、最有效地调整风险偏好。

Takeaways, Limitations

深入了解不同类型和阶段的法学硕士的风险状况。
它展示了后期训练如何调节这些概况。
为未来行为一致性和风险意识LLM设计的研究奠定了基础。
这项研究补充了关于培训后对 LLM 风险行为的影响的研究不足,因为之前的研究主要集中在个性提示或多主体交互上。
我们通过评估其与特定效用理论模型的拟合度来分析该模型的行为,但它可能无法涵盖所有​​效用模型。
👍