每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

使用认知模型揭示语言模型中的价值权衡

Created by
  • Haebom

作者

索尼娅·K·默蒂、赵罗茜、胡珍妮、沙姆·卡卡德、马库斯·沃夫迈尔、彭茜、托默·乌尔曼

大纲

鉴于目前缺乏用于解释大规模语言模型 (LLM) 中价值权衡的工具,我们提出了一项使用认知科学中的认知模型评估 LLM 价值权衡的研究。具体而言,我们使用礼貌用语的认知模型分析了模型的推理工作量以及强化学习 (RL) 训练后的动态。我们发现,该模型的默认行为优先考虑信息效用而非社会效用,并且当被提示优先考虑特定目标时,这种模式会以可预测的方式发生变化。此外,我们研究了 LLM 的训练动态,发现基础模型和预训练数据的选择会显著影响价值变化。所提出的框架有助于识别不同模型类型中的价值权衡,生成关于奉承等社会行为的假设,并设计在模型开发过程中控制价值平衡的训练方法。

Takeaways, Limitations

Takeaways:
评估法学硕士价值权衡的新框架。
分析模型的推理方法和训练动态对价值平衡的影响。
提出了通过模型训练方法控制价值平衡的可能性。
Limitations:
缺乏有关具体模型和训练方法的细节。
对其他社会行为的普遍性有限。
如何定量衡量价值权衡还需要进一步研究。
👍