扩散模型通过无分类器引导在图像和音频生成方面取得了显著进展,但其引导尺度选择的研究仍显不足。固定尺度通常无法泛化到不同复杂度的提示,并且常常导致过饱和或弱对齐。本文通过引入一个提示感知框架来弥补这一缺陷,该框架用于预测尺度相关的质量,并在推理过程中选择最佳引导。具体而言,我们通过生成多个尺度的样本并使用可靠的评估指标对其进行评分,构建了一个大规模合成数据集。一个基于语义嵌入和语言复杂度的轻量级预测器估计了一条多指标质量曲线,并使用一个效用函数通过正则化确定最佳尺度。在 MSCOCO~2014 和 AudioCaps 上的实验结果表明,与原始 CFG 相比,其性能得到了持续改进,提高了保真度、对齐度和感知合意度。本研究表明,提示感知尺度选择可以为预训练的扩散主干网络提供有效且无需训练的增强。