यह पत्र पोस्ट-कम्प्लीशन लर्निंग (PCL) का प्रस्ताव करता है, जो एक नया लर्निंग फ्रेमवर्क है जो मॉडल आउटपुट पूरा होने के बाद अनुक्रम स्थान का उपयोग करता है, ताकि टर्मिनल टोकन ( ) पर समाप्त होने वाले मौजूदा भाषा मॉडल प्रशिक्षण की सीमा को पार किया जा सके। PCL मॉडल के आउटपुट को पूरा करने के बाद भी आत्म-मूल्यांकन और इनाम की भविष्यवाणियों को उत्पन्न करना जारी रखते हुए अनुमान और आत्म-मूल्यांकन क्षमताओं को बढ़ाता है, जबकि समापन बिंदु पर रुककर कुशल अनुमान बनाए रखता है। यह एक व्हाइट-बॉक्स सुदृढीकरण सीखने की विधि के माध्यम से हासिल किया जाता है, जहां मॉडल इनाम के नियमों के अनुसार आउटपुट का मूल्यांकन करता है और इनाम फ़ंक्शन के साथ संरेखित करके स्कोर की निगरानी करता है। अनुमान और मूल्यांकन दोनों क्षमताओं को अनुकूलित करने के लिए, हम दोहरे-ट्रैक SFT को लागू करते हैं