每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

Omni-Thinker:通过混合奖励和任务调度在 LLM 中扩展多任务 RL

Created by
  • Haebom

作者

Derek Li、周家明、Leo Maxime Brunswic、Abbas Ghaddar、孙千一、马立恒、罗宇、李东、Mark Coates、郝建业、张映雪

Omni-Thinker:基于 BWT 的调度和混合监督,用于将基于 RL 的后训练扩展到通用 LLM

大纲

本文介绍了一种能够进行结构化推理和开放式生成的大规模语言模型 (LLM) 的研究。Omni-Thinker 是一个集成式强化学习 (RL) 框架,它通过结合混合奖励和反向迁移引导的调度机制,将 LLM 扩展到各种任务。混合奖励机制将基于规则的可验证信号与 LLM-as-a-Judge 的基于偏好的评估相结合,从而支持在确定性领域和主观性领域的学习。该调度器通过根据反向迁移准确率 (BWT) 安排任务来减少遗忘并提升多任务性能。在四个领域进行的实验表明,与联合训练相比,该模型的性能提升了 6.2%,与模型合并相比,该模型的性能提升了 12.4%。此外,我们证明了关于反向迁移准确率的简单假设可以准确预测课程结果,并且熵动态可以解释生成任务引起的差异。

Takeaways, Limitations

Takeaways:
通过混合奖励和基于 BWT 的调度改进基于 RL 的 LLM 后续学习。
有助于提高 LLM 在各种任务中的表现。
强调使用 BWT 进行调度的重要性。
预测课程成果并提出解释生成性工作熵动力学的可能性。
Limitations:
论文中没有具体提及Limitations。
👍