大规模语言模型 (LLM) 彻底改变了人工智能,但它们仍然容易犯错,并探索无效的推理路径。自我纠正能力对于在安全关键型应用中部署 LLM 至关重要。本研究发现,LLM 无法系统性地纠正自身输出中的错误,这种现象被称为“自我纠正盲点”,即 LLM 能够成功纠正外部源中的相同错误,但却无法纠正它们。为了探究这一现象,我们提出了 Self-Correction Bench,这是一个评估框架,它通过在三个复杂度级别上进行受控错误注入来衡量这一现象。通过测试 14 个开源非推理模型,我们发现平均盲点率为 64.5%。多项证据表明,这种局限性可能受到训练数据的影响。具体而言,人工演示很少包含纠错序列,而强化学习 (RL) 训练的模型则通过输出反馈来学习纠正错误。值得注意的是,添加一个最小的“等待”提示可以将盲点减少 89.3%,这表明存在一种需要触发的潜在能力。本研究强调了可能受训练分布影响的重要限制,并提出了提高 LLM 可靠性的实用方法。