यह शोधपत्र विरल-पुरस्कार सुदृढीकरण अधिगम (RL) की चुनौतियों का समाधान करने के लिए एक नवीन संरचनात्मक पुरस्कार अधिगम ढाँचा, नीति-जागरूक मैट्रिक्स पूर्णता (PAMC) प्रस्तुत करता है। PAMC नीति-पक्षपाती प्रतिचयन के अंतर्गत पुरस्कार मैट्रिक्स की अनुमानित निम्न-आयामी और विरल संरचना का उपयोग करता है। यह पुनर्प्राप्ति गारंटी सिद्ध करने के लिए पश्च-प्रवण भारों का उपयोग करता है और एक विज़िट-भारित त्रुटि-पछतावा सीमा स्थापित करता है जो पूर्णता त्रुटि को नियंत्रण प्रदर्शन से जोड़ता है। जब यह धारणा कमजोर होती है, तो PAMC सुरक्षित रूप से अन्वेषण पर लौटने के लिए विश्वास अंतराल को चौड़ा करता है और एल्गोरिथम को रोक देता है। प्रयोगात्मक रूप से, PAMC अटारी-26, DM कंट्रोल, मेटावर्ल्ड MT50, D4RL ऑफ़लाइन RL, और बेसलाइन RL बेंचमार्क पर नमूना दक्षता में सुधार करता है, और कम्प्यूटेशनल रेगुलराइज़ेशन तुलनाओं में DrQ-v2, DreamerV3, Agent57, T-REX/D-REX, और PrefPPO से बेहतर प्रदर्शन करता है। ये परिणाम संरचनात्मक पुरस्कारों की उपस्थिति में PAMC को एक व्यावहारिक और सिद्धांतबद्ध उपकरण के रूप में उजागर करते हैं और व्यापक संरचनात्मक पुरस्कार सीखने के परिप्रेक्ष्य के पहले ठोस उदाहरण के रूप में कार्य करते हैं।