Diffusion 모델은 사용자-아이템 상호작용의 생성 과정을 모델링하여 추천 시스템에서 강력한 성능을 보여주고 있다. 그러나 이러한 모델을 처음부터 학습하는 것은 계산 비용이 많이 들고 수렴에 도달하면 성과가 줄어든다. ReFiT은 강화 학습(RL) 기반 미세 조정을 확산 기반 추천 시스템에 통합하는 새로운 프레임워크를 제안한다. ReFiT은 외부 보상 모델에 의존하는 이전의 확산 모델에 대한 RL 접근 방식과 달리, 덴노이징 궤적을 마르코프 결정 과정(MDP)으로 공식화하고 추천 품질을 직접 반영하는 협업 신호 인식 보상 함수를 통합한다. 정책 기울기 최적화를 활용하여 ReFiT은 관찰된 상호작용의 정확한 로그 우도를 최대화하여 확산 추천기의 효과적인 사후 미세 조정을 가능하게 한다.