본 논문은 보상 기반 생성 방식을 통해 테스트 시점에 스케일링을 수행하는 새로운 방법인 Iterative Reward-Guided Refinement (IterRef)를 제안합니다. 특히, 이산 확산 모델에 초점을 맞춰, 보상 기반 노이징-디노이징 전환을 통해 잘못 정렬된 중간 상태를 점진적으로 개선합니다. Multiple-Try Metropolis (MTM) 프레임워크 내에서 이 과정을 공식화하고, 보상 정렬 분포로의 수렴을 증명합니다. 기존 방식과 달리, IterRef는 각 상태를 제자리에서 명시적으로 개선하여 최적의 중간 분포로 점진적으로 유도합니다. 텍스트 및 이미지 도메인에서 다양한 이산 확산 모델에 대해 평가했으며, 보상 기반 생성 품질에서 일관된 개선을 보였습니다. 특히, IterRef는 낮은 컴퓨팅 예산에서도 놀라운 성능 향상을 보이며, 기존 최고 성능의 기준선을 훨씬 능가합니다.