每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

对大型语言模型进行后训练以获得多样化的高质量响应

Created by
  • Haebom

作者

陈一蕾、苏拉迪普·查克拉博蒂、洛伦兹·沃尔夫、雅尼斯·帕斯卡利迪斯、阿尔多·帕基亚诺

大纲

强化学习 (RL) 广泛用于训练后的大规模语言模型 (LLM),但它往往会降低模型的输出多样性。现有的增强多样性的方法存在局限性,要么在推理时进行操作,要么侧重于表面差异。本文提出了一种基于行列式点过程 (DPP) 的新型训练方法——多样性质量优化 (DQO),以联合优化质量和语义多样性。对于每个提示,DQO 会采样并嵌入一组响应,然后使用基于核的相似性矩阵的行列式将多样性度量为这些响应的嵌入所代表的体积。DQO 灵活且可适应现有的 RL 算法。在指令遵循、摘要、故事生成和推理任务上的实验表明,DQO 在不影响模型质量的情况下显著提高了语义多样性。

Takeaways, Limitations

DQO 提出了一种新颖的训练方法来解决 LLM 的输出多样性问题。
事实证明,DQO 可以在不影响质量的情况下提高语义多样性。
DQO 可以轻松应用于现有的 RL 算法。
本文证明了DQO在各种任务中的有效性。
虽然本文没有提到 DQO 的具体 Limitations,但基于 DPP 的方法可能存在计算复杂性或超参数调整困难。
👍