यह शोधपत्र ट्रांसफ़ॉर्मर पर आधारित मानक मॉडल-आधारित सुदृढीकरण अधिगम प्रतिमान में तीन सुधार प्रस्तुत करता है। पहला, "डायना विद वार्मअप" वास्तविक और कल्पित, दोनों डेटा का उपयोग करके नीति को प्रशिक्षित करता है, लेकिन कल्पित डेटा का उपयोग विश्व मॉडल के पर्याप्त रूप से प्रशिक्षित होने के बाद ही शुरू करता है। दूसरा, छवि पैच के लिए "निकटतम पड़ोसी टोकनाइज़र" ट्रांसफ़ॉर्मर विश्व मॉडल (TWM) का उपयोग करते समय आवश्यक पिछले टोकनाइज़र दृष्टिकोण को बेहतर बनाता है, यह सुनिश्चित करके कि कोड शब्द जनरेशन के बाद स्थिर होते हैं, जिससे TWM अधिगम के लिए एक सुसंगत लक्ष्य प्रदान होता है। तीसरा, "ब्लॉक शिक्षक प्रवर्तन" TWM को क्रमिक रूप से उत्पन्न करने के बजाय अगले समय चरण के लिए भविष्य के टोकनों का संयुक्त रूप से अनुमान लगाने की अनुमति देता है। प्रस्तावित विधि विभिन्न वातावरणों में पिछली विधियों की तुलना में महत्वपूर्ण प्रदर्शन सुधार प्रदर्शित करती है। विशेष रूप से, यह क्राफ्टैक्स-क्लासिक बेंचमार्क पर 1 मिलियन वातावरण चरणों के बाद 69.66% रिवॉर्ड प्राप्त करता है, जो ड्रीमरV3 (53.2%) से काफी बेहतर प्रदर्शन करता है और पहली बार मानव-स्तर (65.0%) को पार करता है। हम क्राफ्टैक्स-फुल, मिनाटार और तीन अन्य दो-खिलाड़ी खेलों पर प्रारंभिक परिणामों के माध्यम से दृष्टिकोण की व्यापकता को भी प्रदर्शित करते हैं।