每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

通过持续指令调整实现自我进化的法学硕士

Created by
  • Haebom

作者

康家正、黄乐、侯成、赵哲、严振翔、石传、白婷

大纲

本文提出了一个参数高效的对抗性混合专家 (MoE) 框架 MoE-CL,用于大规模语言模型 (LLM) 的持续学习 (CL),以应对工业环境中多样化且不断发展的任务。为了解决现有 CL 方法的关键弱点——遗忘问题,MoE-CL 采用双专家设计,利用特定任务的专家和共享专家。特定任务的专家保留特定于每个任务的知识,而共享专家则促进跨任务的迁移。此外,本文还集成了一个基于生成对抗网络 (GAN) 的任务感知鉴别器,以防止共享专家传递与任务无关的噪声。通过对抗性学习,共享专家学习到广义的表示,而特定任务的专家保留特定于任务的细节,从而在知识保留和跨任务泛化之间取得平衡。我们通过在公共 MTL5 基准、Tencent3 工业基准以及腾讯视频平台内容合规性审查系统上的 A/B 测试中进行实验,验证了 MoE-CL 的有效性和实用性。

Takeaways,Limitations

Takeaways:
为法学硕士 (LLM) 行业 (MoE-CL) 持续学习的挑战提供有效的解决方案。
通过利用特定任务专家和共享专家的双重专家设计来缓解遗忘问题。
通过对抗性学习实现跨任务泛化和知识保留之间的平衡。
通过在腾讯视频平台的实际应用验证了成本节省(降低15.3%)。
提出适合大规模工业部署的实用方法。
Limitations:
所提出的 MoE-CL 的性能可能仅限于特定的基准和工业环境。
需要与其他 CL 方法进行更全面的比较分析。
可能缺乏基于 GAN 的鉴别器的设计和训练过程的详细描述。
考虑到工业环境的各种特点,可能需要进行额外的实验和验证。
👍