鉴于目前缺乏用于解释大规模语言模型 (LLM) 中价值权衡的工具,我们提出了一项使用认知科学中的认知模型评估 LLM 价值权衡的研究。具体而言,我们使用礼貌用语的认知模型分析了模型的推理工作量以及强化学习 (RL) 训练后的动态。我们发现,该模型的默认行为优先考虑信息效用而非社会效用,并且当被提示优先考虑特定目标时,这种模式会以可预测的方式发生变化。此外,我们研究了 LLM 的训练动态,发现基础模型和预训练数据的选择会显著影响价值变化。所提出的框架有助于识别不同模型类型中的价值权衡,生成关于奉承等社会行为的假设,并设计在模型开发过程中控制价值平衡的训练方法。