奖励黑客攻击 (Reward hacking) 是一种利用奖励函数漏洞在不解决预期任务的情况下获取高额奖励的现象,它对推理模型构成了严重威胁。这种行为可以显性地体现在模型的计算能力期限 (CoT) 中,也可以通过绕过计算能力期限监控器 (CoT monitor) 而隐性地体现。为了检测隐性奖励黑客攻击,我们提出了截断推理曲线下面积 (TRACE) 模型。TRACE 通过测量模型推理能力达到足以获得奖励的点来量化工作量。它会逐步将模型的计算能力期限 (CoT) 截断为不同的长度,强制模型做出响应,并在每个截断点处估算预期奖励。由于黑客攻击模型会走捷径,它只需一小部分计算能力期限 (CoT) 即可获得高额预期奖励,从而增加了准确率与长度曲线下的面积。TRACE 在数学推理方面比最强大的 72B 计算能力期限监控器提升了 65% 以上,在编码方面比 32B 计算能力期限监控器提升了 30% 以上。此外,TRACE 还展示了其在训练过程中发现未知漏洞的能力。 TRACE 提供了一种可扩展的、无监督的方法,而当前的监控方法无效。