यह शोधपत्र एक नवीन शोर-आधारित अधिगम नियम प्रस्तुत करता है जो जैविक तंत्रिका तंत्रों की क्रियाविधि का अनुकरण करता है, जो विलंबित पुरस्कारों से कुशलतापूर्वक सीखते हैं, और संसाधन-सीमित वातावरणों या अविभेदनीय घटकों वाली प्रणालियों में भी लागू होता है। पारंपरिक पुरस्कार-विनियमित हेब अधिगम (RMHL) की सीमाओं को दूर करने के लिए, जिसमें समय विलंब और पदानुक्रमित प्रसंस्करण शामिल है, हम एक एल्गोरिथ्म प्रस्तावित करते हैं जो पुरस्कार पूर्वानुमान त्रुटि को एक अनुकूलन उद्देश्य के रूप में उपयोग करता है और पूर्वव्यापी क्रेडिट असाइनमेंट को सक्षम करने के लिए एक पात्रता ट्रेस को शामिल करता है। यह विधि केवल स्थानीय जानकारी का उपयोग करती है और प्रयोगात्मक रूप से प्रदर्शित करती है कि यह RMHL से बेहतर प्रदर्शन करती है और सुदृढीकरण अधिगम कार्यों (तत्काल और विलंबित पुरस्कार दोनों) में बैकप्रोपेगेशन (BP) के बराबर प्रदर्शन प्राप्त करती है। यद्यपि इसकी अभिसरण गति धीमी है, यह कम-शक्ति अनुकूली प्रणालियों पर प्रयोज्यता प्रदर्शित करती है जहाँ ऊर्जा दक्षता और जैविक संभाव्यता महत्वपूर्ण हैं। इसके अलावा, यह उन क्रियाविधिओं की अंतर्दृष्टि प्रदान करती है जिनके द्वारा डोपामाइन-जैसे संकेत और सिनैप्टिक स्टोचैस्टिसिटी जैविक नेटवर्क में अधिगम में योगदान करते हैं।