यह पत्र AIRL-S प्रस्तुत करता है, जो बड़े पैमाने के भाषा मॉडल (LLM) के परीक्षण-समय स्केलिंग (TTS) के लिए एक नया दृष्टिकोण है। मौजूदा सुदृढीकरण सीखने (RL)-आधारित और खोज-आधारित विधियों की सीमाओं को पार करने के लिए, हम खोज के लिए प्रक्रिया इनाम मॉडल (PRM) के रूप में RL सीखने के दौरान सीखे गए इनाम कार्यों का उपयोग करने का विचार प्रस्तावित करते हैं। विशेष रूप से, हम सही उत्तर अनुमान प्रक्रिया से एक सघन और गतिशील PRM सीखने के लिए प्रतिकूल व्युत्क्रम सुदृढीकरण सीखने (AIRL) और समूह-सापेक्ष नीति अनुकूलन (GRPO) को जोड़ते हैं। यह PRM एक साथ अनुमान के दौरान RL रोलआउट के मूल्यांकनकर्ता और खोज प्रक्रिया को प्रभावी ढंग से निर्देशित करने के लिए एक अनुमानी के रूप में कार्य करता है, जिससे मजबूत अनुमान स्केलिंग सक्षम होती है, इनाम हैकिंग को कम किया जाता है, और विविध कार्यों में सामान्यीकरण में सुधार होता है। इसके अलावा, जब विभिन्न खोज एल्गोरिदम में एकीकृत किया जाता है, तो हमारा दृष्टिकोण मौजूदा लेबल किए गए डेटा पर प्रशिक्षित पीआरएम से लगातार बेहतर प्रदर्शन करता है।