यह शोधपत्र सुदृढीकरण अधिगम (RL) के लिए औसत-पुरस्कार सूत्रीकरणों में हाल ही में बढ़ती रुचि को संबोधित करता है जो दीर्घकालिक समस्याओं को बिना किसी छूट के हल कर सकते हैं। छूट प्राप्त परिस्थितियों में, एन्ट्रॉपी-नियामक एल्गोरिदम विकसित किए गए हैं, जो नियतात्मक विधियों की तुलना में बेहतर प्रदर्शन प्रदर्शित करते हैं। हालाँकि, एन्ट्रॉपी-नियामक औसत-पुरस्कार उद्देश्यों को लक्षित करने वाले गहन RL एल्गोरिदम विकसित नहीं किए गए हैं। इस कमी को पूरा करने के लिए, यह शोधपत्र एक औसत-पुरस्कार सॉफ्ट एक्टर-क्रिटिक एल्गोरिदम प्रस्तावित करता है। हम मानक RL बेंचमार्क पर मौजूदा औसत-पुरस्कार एल्गोरिदम के साथ तुलना करके अपनी विधि का सत्यापन करते हैं, जिससे औसत-पुरस्कार मानदंड के लिए बेहतर प्रदर्शन प्राप्त होता है।