每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

创新者:通过细粒度的 MoE 升级进行科学的持续预训练

Created by
  • Haebom

作者

廖宁、王小星、林泽浩、郭未央、洪峰、宋世翔、于耿、赵子华、谢思涛、魏龙轩、金向奇、秦晓涵、马家乐、陈凯、姚江超、林周涵、严俊池、李志宇、熊飞宇、王彦峰、张林峰

创新者:兼具科学知识和一般技能的法学硕士

大纲

Innovator 是一个融合科学知识和通用能力的大规模语言模型 (LLM)。它将现有的 LLM 升级为细粒度的混合专家模型,充分利用了通用任务和各个科学领域的专家。通过四个升级训练阶段(科学专家归纳、细粒度专家拆分、科学感知路由预热和通才-科学家集成),Innovator 在保留通用领域知识的同时,最大限度地减少了科学领域的负面影响。Innovator 基于 Qwen2.5-7B 构建,拥有 533 亿个参数(133 亿个激活函数),使用 3000 亿个 token 进行训练,其中包括 64 位科学专家和 1 位通用专家。在 30 个科学任务上,Innovator 的平均性能提升了 25%,在通用任务上保持了 99% 的性能,在复杂科学问题上的推理能力提升了 30% 以上。经过 Innovator 训练的 Innovator-Reason 在解决复杂科学问题方面表现出了 30% 的进步。

Takeaways, Limitations

Takeaways:
成功开发结合科学知识和一般技能的法学硕士学位。
使用混合专家模型实现高效的知识获取和管理。
通过多步骤升级训练方法解决灾难性遗忘问题。
各种科学任务的性能都有显著的提高。
开发额外的训练模型以提高推理能力。
Limitations:
缺乏有关模型大小和训练数据规模的信息。
可能对特定的科学领域或数据集有偏见。
缺乏在一般任务中保持性能的具体细节。
升级改造过程的复杂性。
👍