यह पत्र निर्देशित पुरस्कार नीति अनुकूलन (GRPO) में हालिया प्रगति पर चर्चा करता है, जो छवि और वीडियो निर्माण मॉडल में मानव वरीयता संरेखण में सुधार करता है। मौजूदा GRPO ऑन-पॉलिसी रोलआउट और अत्यधिक स्टोचस्टिक डिफरेंशियल इक्वेशन (SDE) नमूनाकरण चरणों के कारण उच्च कम्प्यूटेशनल लागतों से ग्रस्त है, साथ ही विरल पुरस्कारों के कारण प्रशिक्षण अस्थिरता भी है। इन मुद्दों को संबोधित करने के लिए, हम BranchGRPO का प्रस्ताव करते हैं, जो एक नई विधि है जो SDE नमूनाकरण प्रक्रिया को अद्यतन करने के लिए एक शाखा नमूनाकरण नीति प्रस्तुत करती है। सामान्य उपसर्गों में गणना साझा करके और कम-पुरस्कार पथों और अनावश्यक गहराई को छाँटकर, BranchGRPO अन्वेषण विविधता को बनाए रखते हुए या सुधारते हुए प्रति-अद्यतन कम्प्यूटेशनल लागतों को महत्वपूर्ण रूप से कम करता है। प्रायोगिक परिणाम दर्शाते हैं कि ब्रांचजीआरपीओ एक मजबूत बेसलाइन मॉडल की तुलना में संरेखण स्कोर में 16% सुधार करता है और प्रशिक्षण समय को 50% तक कम करता है।