본 논문은 잡음 제거 기반 생성 모델, 특히 확산 및 흐름 일치 알고리즘의 성과를 바탕으로, 생성 모델의 출력 분포를 인간의 선호도, 구성 정확도, 데이터 압축률과 같은 복잡한 하위 목표에 맞추는 어려움을 해결하고자 한다. 기존 강화 학습(RL) 미세 조정 방법의 한계를 극복하기 위해, 확산 모델에 대한 RL 미세 조정을 확률 미분 방정식과 암시적 보상 조건화의 관점에서 재해석한다. 본 논문은 기본 모델과 RL 미세 조정 모델의 출력을 기하 평균을 통해 결합하여 분류기 없는 안내(CFG)를 적용하는 추론 시간 방법인 강화 학습 안내(RLG)를 제시한다. 이론적 분석을 통해 RLG의 안내 척도가 표준 RL 목표에서 KL-정규화 계수를 조정하는 것과 수학적으로 동일하며, 추가 훈련 없이 정렬-품질 절충에 대한 동적 제어를 가능하게 함을 보여준다. 다양한 아키텍처, RL 알고리즘 및 하위 작업(인간 선호도, 구성 제어, 압축률, 텍스트 렌더링 포함)에 걸쳐 RLG가 RL 미세 조정 모델의 성능을 지속적으로 향상시킨다는 것을 광범위한 실험을 통해 입증한다. 또한 RLG는 보간 및 외삽을 모두 지원하여 생성 정렬 제어에 있어 전례 없는 유연성을 제공한다. 결론적으로, 본 논문은 추론 시 확산 모델 정렬을 향상시키고 제어하기 위한 실용적이고 이론적으로 타당한 해결책을 제공한다.