본 논문은 확산 모델과 플로우 기반 생성 모델을 보상 기반으로 미세 조정하는 다양한 기존 방법론들이 '보상 점수 매칭(Reward Score Matching, RSM)'이라는 통일된 프레임워크로 설명될 수 있음을 보입니다. RSM 프레임워크는 보상 점수 매칭 관점에서 다양한 방법론들의 차이를 가치 안내 추정기(value-guidance estimator) 구축 방식과 타임스텝별 최적화 강도로 명확히 구분하며, 이를 통해 기존 방법론들의 편향-분산-계산량 절충점을 파악하고 핵심 최적화 요소와 부가적인 메커니즘을 구별합니다. 연구진은 이 통일된 관점을 바탕으로 더 간단하고 효율적인 재설계를 제안합니다.