यह पत्र केवल संख्यात्मक प्रतिक्रिया का उपयोग करके सुदृढीकरण सीखने (आरएल) की तीन Limitations (ठहराव, आत्म-चिंतन की सीमित प्रभावशीलता और लगातार विफलता) कमियों को प्रस्तुत करता है, और क्रिटिक-जीआरपीओ का प्रस्ताव करता है, जो एक उपन्यास आरएल फ्रेमवर्क है जो उन्हें दूर करने के लिए प्राकृतिक भाषा आलोचना को एकीकृत करता है। क्रिटिक-जीआरपीओ संख्यात्मक प्रतिक्रिया और प्राकृतिक भाषा आलोचना का एक साथ उपयोग करके नीति अनुकूलन करता है, और विशेष रूप से, यह एक आकार देने वाले फ़ंक्शन का उपयोग करता है जो सही उत्तरों के लिए इनाम को मजबूत करता है और गलत उत्तरों को दंडित करता है। Qwen2.5-7B-Base, Qwen2.5-Math-7B-Base, और Qwen3-8B मॉडल का उपयोग करके प्रयोगात्मक परिणाम दिखाते हैं कि क्रिटिक-जीआरपीओ आठ अलग-अलग अनुमान कार्यों पर पारंपरिक पर्यवेक्षित सीखने और आरएल-आधारित ठीक-ट्यूनिंग विधियों से बेहतर प्रदर्शन करता है