每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

法学硕士中的判断模拟

Created by
  • Haebom

作者

爱德华多·洛鲁、雅各布·努多、尼科·奥·迪·马尔科、亚历山德罗·桑蒂罗基、罗伯托·阿泽尼、马泰奥·西内利、文森佐·塞斯塔里、克莱莉亚·罗西-阿尔诺、沃尔特·夸特罗西奥基

大纲

本文重点介绍了大规模语言模型 (LLM) 在评估过程中日益广泛的应用,包括信息过滤、知识差距评估与解释以及可信度判断。我们通过比较专家评分、人工判断以及新闻领域的六个 LLM,来研究 LLM 的评估机制。具体而言,我们实现了一个结构化代理框架,其中模型和非专家参与者遵循相同的评估流程(标准选择、内容检索和论证)。结果揭示了模型评估标准存在一致的差异,表明 LLM 依赖于词汇关联和统计先验知识,而非语境推理。这种依赖具有系统性影响,包括政治不对称以及混淆语言形式和认知可信度的倾向,并可能导致一种被称为“认知效度”(epistemia)的现象,即表面效度取代了验证。

Takeaways, Limitations

LLM 的评估标准与人类不同,依赖于词汇关联和统计先验知识。
法学硕士评估过程中可能会出现政治偏见。
LLM 往往会混淆语言形式和认知可靠性(epistemia)。
将判断委托给法学硕士可能会改变评估过程的启发式方法,从而导致向基于模式的近似转变。
该研究以新闻领域作为评估任务的受控基准,并不关注新闻分类本身。
👍