每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

时间是一种特征:利用扩散语言模型中的时间动态

Created by
  • Haebom

作者

王文、方伯振、景晨晨、沉永亮、沉阳一、王秋雨、欧阳浩、陈浩、沉春华

大纲

本文识别了扩散大规模语言模型 (DLLM) 中的时间振荡,并提出了两种解决方法。dLLM 生成的文本中,中间预测的准确性通常高于最终输出。为了解决这个问题,我们利用了时间一致性。首先,我们提出了一种时间自一致性投票技术,该技术无需训练即可聚合中间预测,并选择最一致的输出。其次,我们提出了一种时间一致性强化方法,该方法利用时间语义熵 (TSE) 来增强生成的稳定性。所提出方法的有效性已在多个基准测试中得到验证,在 Countdown 数据集上的表现比现有 dLLM 提高了 24.7%。

Takeaways, Limitations

Takeaways:
强调 DLLM 的时间动态性(即随时间而变化)的重要性,并提出了利用它们的新方法。
无需训练方法的时间自一致性投票可提高测试阶段的性能。
通过时间一致性强化提高生成稳定性的同时,在多个数据集上实现有意义的性能改进。
Limitations:
对于具体的模型结构或实现方法可能描述不足(仅基于抽象)。
可能需要与其他现有的 DLLM 模型进行额外的比较分析。
需要进一步研究 TSE 等新指标的普遍性及其对其他模型的可扩展性。
👍