本文提出了一种用于大规模语言模型 (LLM) 的推理方法,该方法在思路链 (CoT) 阶段使用连续标记代替离散标记。基于连续标记混合可以同时模拟多条推理路径重叠的直觉,理论上已经证明连续标记具有显著更高的表达能力,可以更有效地解决某些问题。然而,先前的研究要么仅在预训练的离散标记模型上进行推理时使用连续标记,要么从实际离散 CoT 中提取连续 CoT 的计算成本限制了 CoT 中的标记数量。本研究提出了首个通过强化学习 (RL) 学习连续 CoT 的可扩展方法,无需从基线离散 CoT 中进行提取。通过在 RL 探索中使用“软”标记(即输入嵌入中的标记混合和噪声),我们最大限度地降低了计算开销,并能够学习包含数百个标记的连续 CoT。在使用 Llama 和 Qwen 模型(最多 8B)的数学推理基准测试中,我们证明了使用连续 CoT 进行训练在 pass@1 时可达到与离散 token CoT 相当的性能,并在 pass@32 时超越后者,从而生成更广泛的 CoT。在使用连续 CoT token 进行训练并使用离散 token 进行推理时,性能最佳,这意味着“软”模型可以以标准方式部署。最后,我们证明了连续 CoT 强化学习训练能够更好地保留基础模型对领域外任务的预测,从而对基础模型产生更温和的影响。