본 논문은 생성 AI를 위한 연속 시간 점수 기반 확산 모델을 훈련시키는 새로운 강화 학습(RL) 공식을 제안합니다. 이 공식은 생성된 분포를 알려지지 않은 목표 데이터 분포에 가깝게 유지하면서 보상 함수를 극대화하는 샘플을 생성합니다. 기존 연구와 달리, 알려지지 않은 잡음이 추가된 데이터 분포의 점수 함수에 대한 사전 훈련된 모델을 사용하거나 점수 함수를 학습하려고 시도하지 않습니다. 대신, 엔트로피로 규제된 연속 시간 RL로 문제를 공식화하고, 최적의 확률적 정책이 알려진 공분산 행렬을 갖는 가우시안 분포를 갖는다는 것을 보여줍니다. 이 결과를 바탕으로 가우시안 정책의 평균을 매개변수화하고 RL 문제를 해결하기 위해 actor-critic 유형의 (작은) q-학습 알고리즘을 개발합니다. 알고리즘 설계의 핵심 요소는 비율 추정기를 통해 알려지지 않은 점수 함수에서 잡음이 있는 관측값을 얻는 것입니다. 본 공식은 순수 점수 매칭과 사전 훈련된 모델의 미세 조정을 해결하는 데에도 적용할 수 있습니다. 수치적으로, 고차원 이미지 생성을 포함한 여러 생성 작업에서 사전 훈련된 모델을 미세 조정하는 두 가지 최첨단 RL 방법과 성능을 비교하여 본 접근 방식의 효과를 보여줍니다. 마지막으로, 확산 모델의 확률 흐름 ODE 구현과 조건부 확산 모델에 대한 RL 공식의 확장에 대해 논의합니다.