확산 모델은 Classifier-Free Guidance를 통해 이미지 및 오디오 생성 분야에서 큰 발전을 이루었지만, Guidance scale 선택은 제대로 연구되지 않았다. 고정된 scale은 다양한 복잡성의 prompt에 대해 일반화되지 못하고, 과도한 채도 또는 약한 정렬을 유발하는 경우가 많다. 본 논문은 prompt-aware framework를 도입하여 scale-dependent 품질을 예측하고 추론 시 최적의 guidance를 선택함으로써 이러한 격차를 해결한다. 구체적으로, 여러 scale에서 샘플을 생성하고 신뢰할 수 있는 평가 지표로 점수를 매겨 대규모 합성 데이터셋을 구축한다. Semantic embeddings 및 언어적 복잡성에 따라 조건이 지정된 경량 예측기는 다중 메트릭 품질 곡선을 추정하고, 정규화를 통해 유틸리티 함수를 사용하여 최적의 scale을 결정한다. MSCOCO~2014 및 AudioCaps에 대한 실험 결과는 vanilla CFG에 비해 일관된 개선을 보여주며, 충실도, 정렬 및 지각적 선호도를 향상시킨다. 본 연구는 prompt-aware scale selection이 사전 훈련된 diffusion backbone에 대한 효과적인, 훈련이 필요 없는 향상을 제공함을 입증한다.