生成式人工智能模型的兴起推动了合成数据量的激增,预计到 2030 年,大多数新的训练数据将由机器生成。这种转变带来了一个严峻的挑战,即模型崩溃。模型崩溃是指模型性能随着使用合成数据进行重复训练而下降,最终导致模型失效。本文提出了截断交叉熵 (TCE) 损失函数,并指出自回归模型倾向于生成具有高置信度(高对数似然)的文本序列。TCE 通过在训练过程中选择性地忽略高置信度标记来缓解崩溃,从而有效地过滤掉机器生成的伪影。实验结果表明,使用 TCE 训练的模型不仅学习效率更高,而且在崩溃开始之前可以处理 2.3 倍以上的合成数据。此外,我们还提供了一个混合数据环境中模型崩溃动态的开源基准。