每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

推理大型语言模型错误源于对关键问题特征的错觉

Created by
  • Haebom

作者

亚历克斯·海曼、乔尔·泽尔伯伯格

大纲

虽然大规模语言模型 (RLLM) 通过思路链 (CoT) 策略提升了推理性能,但它们仍然不完美。在本研究中,我们使用 o1-mini、o3-mini、DeepSeek-R1、Claude 3.7 Sonnet、Gemini 2.5 Pro Preview 和 Grok 3 Mini Beta 模型测试了图着色问题(一个复杂度可变的约束满足问题)。我们发现 RLLM 倾向于对提示中未指定的图边产生幻觉。这种现象在各种问题复杂度级别和语义框架下都存在,并且在所有测试模型中都占了很大一部分错误答案。此外,我们通过对稳定匹配问题进行小规模实验,验证了输入冲突幻觉现象的普遍性。

Takeaways, Limitations

Takeaways:
RLLM 可能存在各种各样的问题,这些问题会歪曲问题的具体细节。
在图着色问题中,人们往往会产生提示中没有的边的幻觉。
这种幻觉现象在许多模型中都很常见,并且无论问题的复杂性如何都会发生。
在稳定匹配问题中也观察到了类似的错觉现象。
Limitations:
没有提出任何解决方案。
测试的模型类型有限。
需要进一步研究来确定实验结果是否可以推广到所有 RLLM。
👍