每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

ForTIFAI:避免递归训练导致的 AI 模型故障

Created by
  • Haebom

作者

Soheil Zibakhsh Shabgahi、Pedram Aghazadeh、Azalia Mirhoseini、Farinaz Koushanfar

大纲

生成式人工智能模型的兴起推动了合成数据量的激增,预计到 2030 年,大多数新的训练数据将由机器生成。这种转变带来了一个严峻的挑战,即模型崩溃。模型崩溃是指模型性能随着使用合成数据进行重复训练而下降,最终导致模型失效。本文提出了截断交叉熵 (TCE) 损失函数,并指出自回归模型倾向于生成具有高置信度(高对数似然)的文本序列。TCE 通过在训练过程中选择性地忽略高置信度标记来缓解崩溃,从而有效地过滤掉机器生成的伪影。实验结果表明,使用 TCE 训练的模型不仅学习效率更高,而且在崩溃开始之前可以处理 2.3 倍以上的合成数据。此外,我们还提供了一个混合数据环境中模型崩溃动态的开源基准。

Takeaways, Limitations

Takeaways:
TCE 损失函数提供了一种缓解模型崩溃的有效方法。
显著提高模型对合成数据的容忍度。
它为合成数据环境中的模型稳健性提供了实用且可推广的工具。
我们提供了一个用于研究混合数据环境中崩溃的开源基准。
Limitations:
论文中没有明确提及具体的 Limitations。
👍