本研究探讨了长思维链 (CoT) 的担忧,推理语言模型用它来提升复杂任务的性能,但在对抗环境中,CoT 可能会增加有害的输出。本研究探讨了这些长思维链是否可以用于预测性安全监控,即推理过程是否能提供最终响应对齐的早期信号,从而实现适当的干预。研究人员使用 CoT 文本或激活函数,评估了各种监控方法,包括高性能大规模语言模型、微调分类器和人工干预。具体而言,他们发现,在 CoT 激活函数上训练的简单线性探针在预测安全/不安全的最终响应方面显著优于基于文本的基线模型,F1 分数平均绝对提升 13 个百分点。他们证实,模型潜变量比基于文本的 CoT 提供了更可靠的预测信号。此外,他们还证明了这些探针可以在响应生成之前应用于早期的 CoT 片段,从而允许对齐信号在推理完成之前出现。误差分析表明,文本分类器和线性探针之间的性能差距主要出现在一组响应中,称为“执行性CoT”,其中随着CoT的进展,推理始终与最终响应相矛盾。这些发现适用于各种模型大小、类型和安全基准,表明轻量级探针可以在生成过程中实现实时安全监控和早期干预。