यह शोधपत्र वायरलेस नेटवर्कों में मौजूदा सुदृढीकरण अधिगम (RL)-आधारित अधिगम विधियों की डेटा अकुशलता और अल्पकालिक नीतिगत निर्णय लेने संबंधी चुनौतियों का समाधान करने के लिए एक विश्व मॉडल-आधारित अधिगम ढाँचा प्रस्तावित करता है। विशेष रूप से, हम mmWave V2X संचार नेटवर्कों में पैकेट पूर्णता-जागरूक सूचना आयु (CAoI) को न्यूनतम करने पर ध्यान केंद्रित करते हैं, जिनकी विशेषता उच्च गतिशीलता, बार-बार सिग्नल अवरोधन और अत्यंत कम सुसंगतता समय हैं। प्रस्तावित ढाँचा mmWave V2X परिवेश का एक गतिशील मॉडल सीखता है और इसका उपयोग लिंक शेड्यूलिंग करने का तरीका सीखने के लिए प्रक्षेप पथों का पूर्वानुमान लगाने हेतु करता है। वास्तविक-विश्व अंतःक्रियाओं को सीखने के बजाय, यह ढाँचा विभेदनीय कल्पित प्रक्षेप पथों से दीर्घकालिक नीतियाँ सीखता है, समय-भिन्न वायरलेस डेटा का पूर्वानुमान लगाता है, और वास्तविक-विश्व वायरलेस और V2X नेटवर्कों में लिंक शेड्यूलिंग को अनुकूलित करता है। Sionna पर आधारित एक यथार्थवादी सिम्युलेटर का उपयोग करके व्यापक प्रयोग किए गए हैं, और प्रस्तावित विश्व मॉडल मौजूदा MBRL और MFRL विधियों की तुलना में क्रमशः 26% और 16% CAoI सुधार प्रदर्शित करता है।