本文介绍了一种能够进行结构化推理和开放式生成的大规模语言模型 (LLM) 的研究。Omni-Thinker 是一个集成式强化学习 (RL) 框架,它通过结合混合奖励和反向迁移引导的调度机制,将 LLM 扩展到各种任务。混合奖励机制将基于规则的可验证信号与 LLM-as-a-Judge 的基于偏好的评估相结合,从而支持在确定性领域和主观性领域的学习。该调度器通过根据反向迁移准确率 (BWT) 安排任务来减少遗忘并提升多任务性能。在四个领域进行的实验表明,与联合训练相比,该模型的性能提升了 6.2%,与模型合并相比,该模型的性能提升了 12.4%。此外,我们证明了关于反向迁移准确率的简单假设可以准确预测课程结果,并且熵动态可以解释生成任务引起的差异。