每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

提示感知分类器免费指导扩散模型

Created by
  • Haebom

作者

张宣豪,李畅

大纲

扩散模型通过无分类器引导在图像和音频生成方面取得了显著进展,但其引导尺度选择的研究仍显不足。固定尺度通常无法泛化到不同复杂度的提示,并且常常导致过饱和或弱对齐。本文通过引入一个提示感知框架来弥补这一缺陷,该框架用于预测尺度相关的质量,并在推理过程中选择最佳引导。具体而言,我们通过生成多个尺度的样本并使用可靠的评估指标对其进行评分,构建了一个大规模合成数据集。一个基于语义嵌入和语言复杂度的轻量级预测器估计了一条多指标质量曲线,并使用一个效用函数通过正则化确定最佳尺度。在 MSCOCO~2014 和 AudioCaps 上的实验结果表明,与原始 CFG 相比,其性能得到了持续改进,提高了保真度、对齐度和感知合意度。本研究表明,提示感知尺度选择可以为预训练的扩散主干网络提供有效且无需训练的增强。

Takeaways, Limitations

Takeaways:
通过提示感知尺度选择来提高扩散模型的性能。
通过选择适用于各种提示复杂性的指导尺度,我们解决了过度饱和和弱对齐问题。
与预先训练的扩散主干相比,提供了无需训练的改进。
经实验证明适用于图像生成和音频生成任务。
Limitations:
需要有关具体框架实现和性能改进程度的更多详细信息。
缺乏有关轻量级预测器的复杂性和计算成本的信息。
需要进一步研究来确定其对其他扩散模型架构的普遍性。
需要评估所提出的方法在实际应用中的可扩展性。
👍