虽然大规模语言模型 (RLLM) 通过思路链 (CoT) 策略提升了推理性能,但它们仍然不完美。在本研究中,我们使用 o1-mini、o3-mini、DeepSeek-R1、Claude 3.7 Sonnet、Gemini 2.5 Pro Preview 和 Grok 3 Mini Beta 模型测试了图着色问题(一个复杂度可变的约束满足问题)。我们发现 RLLM 倾向于对提示中未指定的图边产生幻觉。这种现象在各种问题复杂度级别和语义框架下都存在,并且在所有测试模型中都占了很大一部分错误答案。此外,我们通过对稳定匹配问题进行小规模实验,验证了输入冲突幻觉现象的普遍性。