本文揭示了模式崩溃(LLM 多样性在训练后对齐过程中下降的现象)的根本原因并非算法限制,而是偏好数据中的典型性偏差。研究人员从理论上证实了这一发现,并在偏好数据集上进行了实证验证。基于此分析,他们提出了一种简单、无需训练的提示策略——言语化抽样 (VS),以规避模式崩溃。VS 提示模型将一系列响应的概率分布言语化。通过各种实验,他们证明 VS 显著提升了创意写作、对话模拟、开放式问答和合成数据生成等多个领域的性能,尤其显著提升了创意写作领域的多样性。此外,他们发现,VS 的效果往往对性能较好的模型更为显著。