यह शोधपत्र डिफ्यूजन मॉडल को इनपुट प्रॉम्प्ट के साथ संरेखित करके विश्वसनीय जनरेटिव एआई मॉडल बनाने हेतु मानव फीडबैक (RLHF) के साथ सुदृढीकरण अधिगम के उपयोग का अन्वेषण करता है। RLHF के पारंपरिक असतत-कालिक सूत्रीकरणों में विवेकीकरण त्रुटियाँ होती हैं और इन्हें उच्च-क्रम/ब्लैक-बॉक्स सॉल्वर का उपयोग करने वाले मॉडलों पर लागू करना कठिन होता है। इसलिए, यह अध्ययन सतत-कालिक RL का उपयोग करके डिफ्यूजन मॉडल को परिष्कृत करने के लिए एक व्यवस्थित दृष्टिकोण विकसित करता है। यह दृष्टिकोण एक स्टोकेस्टिक नियंत्रण समस्या के रूप में तैयार किया गया है जिसमें एक रिवॉर्ड फ़ंक्शन होता है जो इनपुट प्रॉम्प्ट को अंतिम परिणाम (टर्मिनल स्थिति) के साथ संरेखित करता है। मूल विचार स्कोर मिलान को एक नियंत्रण या क्रिया के रूप में मानना है, और इसे सतत-कालिक RL में नीति अनुकूलन और नियमन से जोड़ना है। इसे प्राप्त करने के लिए, हम एक नया सतत-कालिक RL नीति अनुकूलन ढाँचा प्रस्तुत करते हैं और डिफ्यूजन मॉडल के संरचनात्मक गुणों का लाभ उठाकर मूल्य नेटवर्क डिज़ाइन स्थान को बढ़ाने की इसकी क्षमता प्रदर्शित करते हैं। हम एक बड़े पैमाने के टेक्स्ट2इमेज मॉडल, जैसे कि स्टेबल डिफ्यूजन v1.5, को परिष्कृत करने पर प्रयोगों के माध्यम से अपनी पद्धति की प्रभावशीलता को प्रमाणित करते हैं।