[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

फ्लो-जीआरपीओ: ऑनलाइन आरएल के माध्यम से फ्लो मिलान मॉडल का प्रशिक्षण

Created by
  • Haebom

लेखक

जी लियू, गोंगये लियू, जियाजुन लियांग, यांगगुआंग ली, जियाहेंग लियू, जिंताओ वांग, पेंगफेई वान, डि झांग, वानली ओयांग

रूपरेखा

इस पत्र में, हम फ़्लो-जीआरपीओ का प्रस्ताव करते हैं, जो ऑनलाइन सुदृढीकरण अधिगम (आरएल) को प्रवाह-मिलान मॉडल में एकीकृत करने की पहली विधि है। इसकी मुख्य रणनीतियाँ दोहरी हैं: पहला, एक ODE-से-SDE रूपांतरण जो नियतात्मक साधारण अवकल समीकरणों (ODEs) को समतुल्य स्टोकेस्टिक अवकल समीकरणों (SDEs) में रूपांतरित करता है जो मूल मॉडल के सभी समय चरणों पर सीमांत वितरणों से मेल खाते हैं, जिससे RL अन्वेषण के लिए सांख्यिकीय नमूनाकरण संभव होता है; दूसरा, एक शोर-निवारण न्यूनीकरण रणनीति जो प्रशिक्षण शोर-निवारण चरणों को कम करते हुए अनुमान समय चरणों की मूल संख्या को बनाए रखती है, जिससे प्रदर्शन में गिरावट के बिना नमूनाकरण दक्षता में उल्लेखनीय सुधार होता है। प्रयोगात्मक रूप से, फ़्लो-जीआरपीओ को कई टेक्स्ट-टू-इमेज कार्यों पर प्रभावी दिखाया गया है। जटिल विन्यासों के लिए, RL-ट्यून्ड SD3.5 लगभग पूर्ण वस्तु गणना, स्थानिक संबंध और विस्तृत विशेषताएँ उत्पन्न करता है, जिससे GenEval सटीकता 63% से 95% तक बढ़ जाती है। दृश्य टेक्स्ट रेंडरिंग में, सटीकता 59% से 92% तक सुधर जाती है, जिससे टेक्स्ट निर्माण में उल्लेखनीय सुधार होता है। फ़्लो-जीआरपीओ मानव वरीयता संरेखण में भी महत्वपूर्ण लाभ प्राप्त करता है। विशेष रूप से, यह ध्यान देने योग्य है कि रिवॉर्ड हैकिंग बहुत कम होती है। यानी, इमेज क्वालिटी या विविधता में उल्लेखनीय गिरावट की कीमत पर रिवॉर्ड में वृद्धि नहीं हुई।

Takeaways, Limitations

Takeaways:
हम प्रवाह मिलान मॉडल में ऑनलाइन सुदृढीकरण सीखने को शामिल करके पाठ-से-छवि निर्माण के प्रदर्शन में महत्वपूर्ण सुधार करते हैं।
ODE-से-SDE रूपांतरण और शोर न्यूनीकरण रणनीतियों के माध्यम से नमूनाकरण दक्षता में सुधार किया जाता है।
हमने जेनएवल और विज़ुअल टेक्स्ट रेंडरिंग कार्यों में उल्लेखनीय प्रदर्शन सुधार देखा है।
मानव वरीयता संरेखण में सुधार करते हुए पुरस्कार हैकिंग समस्याओं को न्यूनतम करता है।
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन की जांच के लिए आगे के अध्ययन की आवश्यकता है।
विभिन्न पाठ-छवि मॉडलों पर इसकी प्रयोज्यता का आगे सत्यापन आवश्यक है।
पुरस्कार कार्य डिजाइन के प्रभाव और सुधार की दिशा पर आगे विश्लेषण की आवश्यकता है।
👍