यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
एक्शन के रूप में स्कोर: निरंतर-समय सुदृढीकरण सीखने द्वारा विसरण जनरेटिव मॉडल को ठीक करना
Created by
Haebom
लेखक
हनयांग झाओ, हाओक्सियन चेन, जी झांग, डेविड डी. याओ, वेनपिन तांग
रूपरेखा
यह पेपर मानव प्रतिक्रिया (RLHF) से सुदृढीकरण सीखने का उपयोग करके इनपुट संकेतों के साथ प्रसार मॉडल को संरेखित करने की एक विधि प्रस्तुत करता है। हम पारंपरिक असतत-समय सूत्रीकरण के बजाय निरंतर-समय सुदृढीकरण सीखने का उपयोग करके प्रसार मॉडल को ठीक करने के लिए एक नया दृष्टिकोण प्रस्तावित करते हैं। यह स्कोर मिलान को एक नियंत्रण या क्रिया के रूप में मानकर, इसे निरंतर-समय RL में नीति अनुकूलन और नियमन से जोड़कर प्राप्त किया जाता है। हम निरंतर-समय RL के लिए एक नया नीति अनुकूलन ढांचा प्रस्तुत करते हैं और प्रसार मॉडल के संरचनात्मक गुणों का लाभ उठाकर मूल्य नेटवर्क डिज़ाइन स्थान को बढ़ाने की इसकी क्षमता को प्रदर्शित करते हैं। हम स्थिर प्रसार v1.5 जैसे बड़े पैमाने के टेक्स्ट-इमेज मॉडल को ठीक करने के उप-कार्य के माध्यम से प्रस्तावित विधि की खूबियों को सत्यापित करते हैं।
Takeaways, Limitations
•
Takeaways:
◦
हम असतत-समय सूत्रीकरण की सीमाओं पर काबू पाने के लिए निरंतर-समय सुदृढीकरण सीखने का लाभ उठाते हैं और एक आरएलएचएफ ढांचा प्रदान करते हैं जो उच्च-क्रम/ब्लैक-बॉक्स सॉल्वर वाले मॉडल पर लागू होता है।
◦
हम एक नया परिप्रेक्ष्य प्रस्तुत करते हैं जो स्कोर मिलान को नियंत्रण के रूप में मानता है, तथा सतत-समय आरएल में नीति अनुकूलन और नियमितीकरण के संबंध को मजबूत करता है।
◦
प्रसार मॉडल की संरचनात्मक विशेषताओं का लाभ उठाकर, हम मूल्य नेटवर्क डिज़ाइन स्थान का विस्तार कर सकते हैं और मॉडल प्रदर्शन में सुधार कर सकते हैं।
◦
हम स्टेबल डिफ्यूजन V1.5 का प्रयोग करके प्रस्तावित विधि की प्रभावशीलता की पुष्टि करते हैं।
•
Limitations:
◦
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन और अन्य प्रकार के जनरेटिव मॉडलों पर इसकी प्रयोज्यता की जांच के लिए आगे के अध्ययन की आवश्यकता है।
◦
सतत-कालिक आरएल की जटिलता से कम्प्यूटेशनल लागत बढ़ सकती है।
◦
चूंकि केवल बड़े पैमाने के मॉडलों के लिए प्रयोगात्मक परिणाम प्रस्तुत किए जाते हैं, इसलिए छोटे पैमाने के मॉडलों के लिए प्रदर्शन मूल्यांकन आवश्यक है।