每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

通过卷积解码和拒绝微调实现快速流畅的扩散语言模型

Created by
  • Haebom

作者

徐英彬、李东河、金在亨、杨振英

大纲

本文提出了一种基于扩散的语言模型,以克服自回归语言模型的速度限制。虽然基于扩散的模型可以并行解码多个 Token,但它们存在“长解码窗口问题”,即远离输入上下文的 token 不相关或重复。为了解决这个问题,我们提出了卷积解码 (Conv),这是一种基于正则化的方法,可以在不进行硬分割的情况下缩小解码窗口,并引入了基于拒绝规则的微调 (R2FT) 后训练技术,以改进远离上下文的 token 对齐。最终,我们在开放生成基准测试中取得了最佳性能,并且比现有方法的步骤少得多,从而提高了速度和质量。

Takeaways, Limitations

Takeaways:
提出一种有效的方法(卷积解码和基于拒绝规则的微调)来提高基于扩散的语言模型的速度和质量。
以比现有方法更少的步骤实现尖端性能,提高速度和效率。
提出了一种解决长解码窗口问题的新方法。
Limitations:
需要进一步研究所提出方法的泛化性能。
需要验证对其他类型的基于扩散的语言模型或更大规模模型的适用性。
应该考虑 R2FT 等后训练技术的计算成本和复杂性。
👍