为了解决现有监督微调 (SFT) 与强化学习 (RL) 集成方法中固有的挑战(响应模式破坏和过拟合),我们从离策略 (off-policy) 和在策略 (on-policy) 两个角度研究 SFT 与 RL 的集成。我们提出了一个名为 CHORD 的框架,该框架将 SFT 重新定义为在策略 RL 流程中一个动态加权的子目标,而不是一个单独的步骤。CHORD 分析了离策略专家数据的影响,并使用全局系数和基于 token 的加权函数实现了双重控制机制。这有利于在策略探索,减轻了离策略数据的干扰,并在数学推理和工具使用任务上优于现有方法。