दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

क्रिया के रूप में स्कोर: सतत-समय सुदृढीकरण अधिगम द्वारा विसरण जनरेटिव मॉडल का सूक्ष्म समायोजन

Created by
  • Haebom

लेखक

हनयांग झाओ, हाओक्सियन चेन, जी झांग, डेविड डी. याओ, वेनपिन तांग

रूपरेखा

यह शोधपत्र डिफ्यूजन मॉडल को इनपुट प्रॉम्प्ट के साथ संरेखित करके विश्वसनीय जनरेटिव एआई मॉडल बनाने हेतु मानव फीडबैक (RLHF) के साथ सुदृढीकरण अधिगम के उपयोग का अन्वेषण करता है। RLHF के पारंपरिक असतत-कालिक सूत्रीकरणों में विवेकीकरण त्रुटियाँ होती हैं और इन्हें उच्च-क्रम/ब्लैक-बॉक्स सॉल्वर का उपयोग करने वाले मॉडलों पर लागू करना कठिन होता है। इसलिए, यह अध्ययन सतत-कालिक RL का उपयोग करके डिफ्यूजन मॉडल को परिष्कृत करने के लिए एक व्यवस्थित दृष्टिकोण विकसित करता है। यह दृष्टिकोण एक स्टोकेस्टिक नियंत्रण समस्या के रूप में तैयार किया गया है जिसमें एक रिवॉर्ड फ़ंक्शन होता है जो इनपुट प्रॉम्प्ट को अंतिम परिणाम (टर्मिनल स्थिति) के साथ संरेखित करता है। मूल विचार स्कोर मिलान को एक नियंत्रण या क्रिया के रूप में मानना ​​है, और इसे सतत-कालिक RL में नीति अनुकूलन और नियमन से जोड़ना है। इसे प्राप्त करने के लिए, हम एक नया सतत-कालिक RL नीति अनुकूलन ढाँचा प्रस्तुत करते हैं और डिफ्यूजन मॉडल के संरचनात्मक गुणों का लाभ उठाकर मूल्य नेटवर्क डिज़ाइन स्थान को बढ़ाने की इसकी क्षमता प्रदर्शित करते हैं। हम एक बड़े पैमाने के टेक्स्ट2इमेज मॉडल, जैसे कि स्टेबल डिफ्यूजन v1.5, को परिष्कृत करने पर प्रयोगों के माध्यम से अपनी पद्धति की प्रभावशीलता को प्रमाणित करते हैं।

Takeaways, Limitations

Takeaways:
हम निरंतर-समय आरएल का उपयोग करके विसरण मॉडल को ठीक करने के लिए एक नया ढांचा प्रस्तुत करते हैं, जो विवेकीकरण त्रुटि समस्याओं को संबोधित करता है और उच्च-क्रम / ब्लैक-बॉक्स सॉल्वरों के लिए प्रयोज्यता का विस्तार करता है।
स्कोर मिलान को एक नियंत्रण के रूप में देखते हुए, इसे नीति अनुकूलन और निरंतर-समय आरएल में नियमितीकरण से जोड़ते हुए, मूल्य नेटवर्क के डिजाइन स्थान का विस्तार करना।
प्रस्तावित विधि की प्रभावशीलता को स्थिर प्रसार V1.5 का उपयोग करके प्रयोगों के माध्यम से सत्यापित किया गया।
Limitations:
प्रस्तावित विधि की व्यापकता और विभिन्न मॉडलों/डेटासेटों पर इसकी प्रयोज्यता की जांच के लिए आगे अनुसंधान की आवश्यकता है।
सतत-समय आरएल की कम्प्यूटेशनल लागत असतत-समय आरएल की तुलना में अधिक हो सकती है।
यह प्रयोग स्थिर प्रसार V1.5 तक सीमित था तथा अन्य मॉडलों या अनुप्रयोगों के लिए इसकी सामान्यता का सत्यापन आवश्यक है।
👍