यह शोधपत्र स्व-प्ले संरेखण में संदर्भ नीति पर नियमन के महत्व पर प्रकाश डालता है, जो बड़े पैमाने के भाषा मॉडल (LLM) को परिष्कृत करने के लिए एक प्रभावी दृष्टिकोण के रूप में उभरा है। यह दर्शाते हुए कि मौजूदा स्व-प्ले संरेखण विधियों में संदर्भ नीति पर नियमन का पर्याप्त अध्ययन नहीं किया गया है, हम विभिन्न नियमन रणनीतियों के प्रभावों का अध्ययन करने के लिए एक सामान्य और मॉड्यूलर ढाँचा, **विनियमित स्व-प्ले नीति अनुकूलन (RSPO),** प्रस्तावित करते हैं। RSPO मौजूदा विधियों को एकीकृत करता है और विभिन्न नियमनकर्ताओं के आसान प्लग-एंड-प्ले एकीकरण की अनुमति देता है, साथ ही संबंधित नियमन खेल के नैश संतुलन के साथ अभिसरण की गारंटी भी देता है। 120 से अधिक परिष्कृत मिस्ट्रल-7B-इंस्ट्रक्ट मॉडल के साथ प्रायोगिक परिणाम दर्शाते हैं कि अग्र KL विचलन नियमन प्रतिक्रिया की लंबाई को कम करता है, जबकि पश्च KL विचलन कच्ची जीत की संभावना में उल्लेखनीय रूप से सुधार करता है। विशेष रूप से, अग्र और पश्च KL विचलनों के रैखिक संयोजन द्वारा नियमित RSPO, अल्पाकाएवल-2 पर लंबाई-नियंत्रित जीत दर को 28.5% (अनियमित स्व-खेल, SPPO) से 35.4% तक उल्लेखनीय रूप से सुधारता है, और एरिना-हार्ड, MT-बेंच, आर्मोRM स्कोर और प्रतिक्रिया विविधता पर लगातार बेहतर प्रदर्शन करता है। RSPO सरलता, अभिसरण गारंटी और महत्वपूर्ण प्रयोगात्मक उपलब्धियों को मिलाकर भाषा मॉडल संरेखण में नियमित स्व-खेल की खोज के लिए एक शक्तिशाली आधार प्रदान करता है।