본 논문은 Reward Feedback Learning (ReFL) 프레임워크인 DiffusionReward를 제안하여 맹인 안면 복원(Blind Face Restoration) 문제를 해결합니다. 기존 확산 기반 방법들의 한계인 비현실적인 얼굴 디테일과 낮은 정체성 일관성을 극복하기 위해, 주의 깊게 주석이 달린 데이터로 훈련된 Face Reward Model (FRM)을 사용합니다. FRM은 복원 네트워크의 최적화 과정을 안내하는 피드백 신호를 제공하며, (i) FRM에 의한 지각 품질 보장, (ii) 생성 다양성 보존을 위한 정규화 항, (iii) 얼굴 정확도 유지를 위한 구조적 일관성 제약 조건 등 세 가지 측면을 고려한 기울기 흐름을 확산 과정에 통합합니다. 동적으로 최적화되는 FRM은 복원 네트워크가 실제 얼굴 다양체와 정확하게 정렬되도록 하고 보상 해킹을 방지합니다. 합성 및 실제 데이터셋 실험 결과, 본 방법은 최첨단 방법들을 능가하여 정체성 일관성과 얼굴 디테일을 크게 향상시켰음을 보여줍니다. 소스 코드, 데이터 및 모델은 GitHub에서 공개됩니다.