本文重点介绍了大规模语言模型 (LLM) 在评估过程中日益广泛的应用,包括信息过滤、知识差距评估与解释以及可信度判断。我们通过比较专家评分、人工判断以及新闻领域的六个 LLM,来研究 LLM 的评估机制。具体而言,我们实现了一个结构化代理框架,其中模型和非专家参与者遵循相同的评估流程(标准选择、内容检索和论证)。结果揭示了模型评估标准存在一致的差异,表明 LLM 依赖于词汇关联和统计先验知识,而非语境推理。这种依赖具有系统性影响,包括政治不对称以及混淆语言形式和认知可信度的倾向,并可能导致一种被称为“认知效度”(epistemia)的现象,即表面效度取代了验证。