本文指出,现有的用于评估近期开发的语言模型的数学推理能力的基准测试依赖于仅比较最终答案的启发式方法,从而忽略了推理过程中的错误。这导致了“假阳性”问题,即尽管推理过程存在缺陷,但仍然会产生正确的答案。我们系统地分析了各种开源模型、不同难度的数据集和解码策略中假阳性的出现频率、特征和影响。具体而言,我们研究了假阳性对语言模型推理时间扩展行为的影响,并分析了它们对 Pass@N 评估指标的影响,提出了一个显著低于自动评估观察到的扩展上限。我们还分析了具体的假阳性案例,并讨论了在这些条件下的自我改进技术和合成数据生成。数据和代码均已公开。