दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

BranchGRPO: प्रसार मॉडल में संरचित शाखाओं के साथ स्थिर और कुशल GRPO

Created by
  • Haebom

लेखक

युमिंग ली, यिकाई वांग, युयिंग झू, झोंगयु झाओ, मिंग लू, क्यूई शी, शांगहांग झांग

रूपरेखा

यह पत्र निर्देशित पुरस्कार नीति अनुकूलन (GRPO) में हालिया प्रगति पर चर्चा करता है, जो छवि और वीडियो निर्माण मॉडल में मानव वरीयता संरेखण में सुधार करता है। मौजूदा GRPO ऑन-पॉलिसी रोलआउट और अत्यधिक स्टोचस्टिक डिफरेंशियल इक्वेशन (SDE) नमूनाकरण चरणों के कारण उच्च कम्प्यूटेशनल लागतों से ग्रस्त है, साथ ही विरल पुरस्कारों के कारण प्रशिक्षण अस्थिरता भी है। इन मुद्दों को संबोधित करने के लिए, हम BranchGRPO का प्रस्ताव करते हैं, जो एक नई विधि है जो SDE नमूनाकरण प्रक्रिया को अद्यतन करने के लिए एक शाखा नमूनाकरण नीति प्रस्तुत करती है। सामान्य उपसर्गों में गणना साझा करके और कम-पुरस्कार पथों और अनावश्यक गहराई को छाँटकर, BranchGRPO अन्वेषण विविधता को बनाए रखते हुए या सुधारते हुए प्रति-अद्यतन कम्प्यूटेशनल लागतों को महत्वपूर्ण रूप से कम करता है। प्रायोगिक परिणाम दर्शाते हैं कि ब्रांचजीआरपीओ एक मजबूत बेसलाइन मॉडल की तुलना में संरेखण स्कोर में 16% सुधार करता है और प्रशिक्षण समय को 50% तक कम करता है।

Takeaways, Limitations

Takeaways:
हम एक नवीन विधि (ब्रांचजीआरपीओ) प्रस्तुत करते हैं जो जीआरपीओ की कम्प्यूटेशनल लागत और प्रशिक्षण अस्थिरता के मुद्दों को प्रभावी ढंग से संबोधित करती है।
प्रशिक्षण समय (50%) को कम करके और संरेखण स्कोर (16%) में सुधार करके छवि और वीडियो निर्माण मॉडल के मानव वरीयता संरेखण प्रदर्शन में सुधार करना।
हम शाखा नमूनाकरण, वृक्ष-आधारित लाभ आकलनकर्ता और छंटाई रणनीतियों जैसी नवीन तकनीकें प्रस्तुत करते हैं।
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
विभिन्न डेटासेट और मॉडलों पर अतिरिक्त प्रयोगों की आवश्यकता है।
सघन क्षतिपूर्ति डिजाइन की जटिलता और अनुकूलन प्रक्रिया के विस्तृत विवरण का संभावित अभाव।
👍