यह पत्र मौजूदा समूह-सापेक्ष नीति अनुकूलन (जीआरपीओ) की दो प्रमुख समस्याओं का विश्लेषण करता है: (I) विरोधाभासी ग्रेडिएंट अपडेट जो तब होते हैं जब टोकन सकारात्मक और नकारात्मक दोनों पुरस्कार प्राप्त करते हैं, और (ii) समस्या यह है कि नकारात्मक रूप से पुरस्कृत अंतिम संस्करण आश्वस्त प्रतिक्रियाओं को दंडित करते हैं और मॉडल निर्णयों को कम संभावित टोकन की ओर स्थानांतरित करते हैं, आउटपुट वितरण को समतल करते हैं और सीखने में बाधा डालते हैं। इन मुद्दों को संबोधित करने के लिए, यह पत्र समूह-सापेक्ष प्रक्षेपवक्र-आधारित नीति अनुकूलन (जीटीपीओ) का प्रस्ताव करता है, जो विरोधाभासी टोकन की पहचान करता है और नकारात्मक को छोड़ते हुए सकारात्मक अपडेट को बढ़ाता है। इसके अलावा, यह एक निश्चित सीमा से अधिक एन्ट्रॉपी वाले अंतिम संस्करणों को फ़िल्टर करके नीति पतन को रोकता है। जीआरपीओ के विपरीत, जीटीपीओ केएल-विचलन नियमन पर निर्भर नहीं करता