基于现代的模型不仅仅反映世界知识,它们还反映了训练数据中固有的人类偏好模式。我们假设递归排序(通过人类反馈和模型生成的语料库)会引发社会赞许偏差,导致模型倾向于赞同或奉承的回应,而非客观推论。我们将其命名为“纳西索斯假说”,并使用标准化人格评估和一种新的社会赞许偏差评分,在 31 个模型上进行了测试。结果显示,人们显著倾向于社会从众,这对语料库的完整性和后续推论的可靠性具有重要意义。我们还提出了一种新的认识论解释,解释递归偏差如何扰乱 Pearl 因果阶梯上的高阶推论,最终导致我们所说的“幻觉阶段”。