दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सुदृढीकरण अधिगम मार्गदर्शन के साथ प्रसार मॉडल के लिए अनुमान-समय संरेखण नियंत्रण

Created by
  • Haebom

लेखक

लुओझिजी जिन, ज़िजी किउ, जी लियू, ज़िजी डियाओ, लिफ़ेंग क़ियाओ, निंग डिंग, एलेक्स लैम्ब, ज़िपेंग किउ

रूपरेखा

यह शोधपत्र शोर-निरोधन-आधारित जनरेटिव मॉडलों, विशेष रूप से प्रसार और प्रवाह-मिलान एल्गोरिदम की उपलब्धियों पर आधारित है, ताकि जनरेटिव मॉडलों के आउटपुट वितरण को मानव वरीयता, संरचनागत सटीकता और डेटा संपीड़न अनुपात जैसे जटिल उप-उद्देश्यों के साथ संरेखित करने की चुनौतियों का समाधान किया जा सके। मौजूदा सुदृढीकरण अधिगम (RL) फ़ाइन-ट्यूनिंग विधियों की सीमाओं को दूर करने के लिए, हम स्टोकेस्टिक विभेदक समीकरणों और अंतर्निहित पुरस्कार कंडीशनिंग के संदर्भ में प्रसार मॉडलों के लिए RL फ़ाइन-ट्यूनिंग की पुनर्व्याख्या करते हैं। हम सुदृढीकरण अधिगम मार्गदर्शन (RLG) प्रस्तुत करते हैं, जो एक अनुमान-समय विधि है जो एक आधार मॉडल और एक RL फ़ाइन-ट्यून्ड मॉडल के आउटपुट को ज्यामितीय माध्यमों से संयोजित करती है और वर्गीकारक-मुक्त मार्गदर्शन (CFG) लागू करती है। सैद्धांतिक विश्लेषण दर्शाता है कि RLG का मार्गदर्शन मीट्रिक गणितीय रूप से मानक RL उद्देश्यों में KL-नियमन गुणांक को समायोजित करने के बराबर है, व्यापक प्रयोगों से पता चलता है कि RLG विभिन्न आर्किटेक्चर, RL एल्गोरिदम और उप-कार्यों (मानव वरीयता, संरचना नियंत्रण, संपीड़न अनुपात और टेक्स्ट रेंडरिंग सहित) में RL फ़ाइन-ट्यून्ड मॉडलों के प्रदर्शन को लगातार बेहतर बनाता है। इसके अलावा, RLG इंटरपोलेशन और एक्सट्रपलेशन दोनों का समर्थन करता है, जिससे जनरेटिव अलाइनमेंट को नियंत्रित करने में अभूतपूर्व लचीलापन मिलता है। निष्कर्षतः, यह शोधपत्र अनुमान के दौरान प्रसार मॉडल अलाइनमेंट को बेहतर बनाने और नियंत्रित करने के लिए एक व्यावहारिक और सैद्धांतिक रूप से ठोस समाधान प्रस्तुत करता है।

Takeaways, Limitations

Takeaways:
हम RLG प्रस्तुत करते हैं, जो प्रसार मॉडलों के RL फाइन-ट्यूनिंग के लिए एक नवीन विधि है।
आरएलजी, अनुमान समय पर ज्यामितीय माध्य का उपयोग करते हुए आधार मॉडल और आरएल फाइन-ट्यून्ड मॉडल के आउटपुट को संयोजित करता है, जिससे अतिरिक्त प्रशिक्षण के बिना संरेखण शक्ति का गतिशील नियंत्रण संभव हो जाता है।
मानव वरीयता, संरचना नियंत्रण, संपीड़न अनुपात और पाठ रेंडरिंग सहित विभिन्न उप-कार्यों पर आरएल फाइन-ट्यूनिंग मॉडल के प्रदर्शन में सुधार करें।
अंतर्वेशन और बहिर्वेशन का समर्थन करके पीढ़ी संरेखण को नियंत्रित करने में लचीलापन बढ़ाया गया।
आरएलजी की प्रभावशीलता सैद्धांतिक विश्लेषण के माध्यम से गणितीय रूप से सिद्ध हो चुकी है।
स्रोत कोड प्रकटीकरण.
Limitations:
इस पत्र में प्रस्तुत आरएलजी का प्रदर्शन विशिष्ट डेटासेट और कार्यों के लिए प्रयोगात्मक परिणामों पर आधारित है, और अन्य डेटासेट या कार्यों के लिए सामान्यीकरण प्रदर्शन निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
आरएलजी की कम्प्यूटेशनल लागत पारंपरिक तरीकों की तुलना में अधिक हो सकती है।
आरएलजी के मार्गदर्शन पैमाने को समायोजित करने की इष्टतम रणनीति को आगे के शोध के माध्यम से और बेहतर बनाया जा सकता है।
👍