每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

频谱调整:分布式覆盖和上下文可控性的后训练

Created by
  • Haebom

作者

泰勒·索伦森、本杰明·纽曼、贾里德·摩尔、陈·帕克、吉莉安·费舍尔、尼洛法·米雷什加拉、蒋立伟、崔艺珍

大纲

语言模型后训练提升了指令跟随性能以及各种下游任务的性能,但在存在多种正确答案的任务中,它却常常表现出被忽视的缺陷。在本文中,我们定义了条件分布建模的三个要求:上下文可控性、有效的输出空间覆盖和分布对齐。我们记录了当前的后训练方法如何在三个不同的模型系列中削弱这些属性。具体而言,我们区分了 ICL(利用现有知识或能力)和上下文可控性(利用上下文信息忽略先验知识并转向新的数据生成分布)。为了更好地评估和改进这些要求,我们引入了 Spectrum Suite,这是一个大型资源,包含 90 多个需要转向和匹配各种分布(从不同的人类偏好到数值分布)的任务。我们发现,虽然当前的后训练技术有助于利用底层能力和知识,但它们会降低在上下文中灵活转向的能力。为了缓解这些问题,我们提出了 Spectrum Tuning,这是一种训练后方法,它使用 Spectrum Suite 来提升可控性和分布覆盖率。Spectrum Tuning 通过提升可控性、扩展输出空间以及改进在保留数据集上的分布一致性,使其性能优于预训练模型和指令调整模型。

Takeaways,Limitations

Takeaways:
语言模型后训练提高了指令遵循和下游任务的性能,但可能会对具有多种可能答案的任务产生负面影响。
上下文可操纵性、有效输出空间覆盖和分布对齐是条件分布建模的重要属性。
当前的后训练技术有助于引出潜在的能力和知识,但它们降低了上下文的可操纵性。
Spectrum Suite 是一种用于评估和改进条件分布建模的新资源。
频谱调整是一种后训练方法,可提高可操纵性、输出空间覆盖率和分布一致性。
Limitations:
论文中没有介绍具体的Limitations。
👍