この論文は、生成AIのための連続時間スコアベースの拡散モデルを訓練する新しい強化学習(RL)式を提案します。この式は、生成された分布を未知の目標データ分布に近づけながら補償関数を最大化するサンプルを生成します。従来の研究とは異なり、未知のノイズが追加されたデータ分布のスコア関数の事前訓練モデルを使用したり、スコア関数を学習したりすることはありません。代わりに、エントロピーで規制された連続時間RLで問題を定式化し、最適確率的方針が既知の共分散行列を持つガウス分布を持つことを示しています。この結果に基づいて、ガウス政策の平均をパラメータ化し、RL問題を解決するために、actor-critic型の(小さい)q学習アルゴリズムを開発します。アルゴリズム設計の重要な要素は、比率推定器を介して未知のスコア関数からノイズのある観測値を取得することです。この式は、純粋なスコアマッチングと事前訓練されたモデルの微調整を解決するためにも適用できます。数値的には、高次元画像生成を含む複数の生成作業で事前に訓練されたモデルを微調整する2つの最先端のRL方法とパフォーマンスを比較して、このアプローチの効果を実証します。最後に,拡散モデルの確率フローODEの実装と条件付き拡散モデルに対するRL式の拡張について議論した。