强化学习 (RL) 广泛用于训练后的大规模语言模型 (LLM),但它往往会降低模型的输出多样性。现有的增强多样性的方法存在局限性,要么在推理时进行操作,要么侧重于表面差异。本文提出了一种基于行列式点过程 (DPP) 的新型训练方法——多样性质量优化 (DQO),以联合优化质量和语义多样性。对于每个提示,DQO 会采样并嵌入一组响应,然后使用基于核的相似性矩阵的行列式将多样性度量为这些响应的嵌入所代表的体积。DQO 灵活且可适应现有的 RL 算法。在指令遵循、摘要、故事生成和推理任务上的实验表明,DQO 在不影响模型质量的情况下显著提高了语义多样性。