यह शोधपत्र सुदृढीकरण अधिगम (RL) में नमूना अकुशलता की समस्या के समाधान हेतु संभाव्यता-आधारित पुरस्कार आकार देने (PBRS) के उपयोग का अन्वेषण करता है। हम एक उपयुक्त अव्यक्त फलन के चयन की कठिनाई और गणना संबंधी सीमाओं के कारण एक परिमित क्षितिज के उपयोग में निहित पूर्वाग्रह पर प्रकाश डालते हैं। इसके बाद, हम एक सैद्धांतिक तर्क प्रस्तुत करते हैं कि अव्यक्त फलन के रूप में एक इष्टतम मान फलन का चयन करने से प्रदर्शन में सुधार क्यों होता है। हम PBRS में एक परिमित क्षितिज द्वारा प्रेरित पूर्वाग्रह का विश्लेषण करते हैं और, इष्टतम मान फलन का अनुमान लगाने के लिए अमूर्तता का लाभ उठाकर, चार वातावरणों में PBRS की नमूना दक्षता और प्रदर्शन प्रभाव का मूल्यांकन करते हैं, जिसमें एक लक्ष्य-निर्देशित नेविगेशन कार्य और तीन आर्केड अधिगम वातावरण (ALE) गेम शामिल हैं। प्रायोगिक परिणाम प्रदर्शित करते हैं कि एक सरल, पूर्णतः-संयोजित नेटवर्क, CNN-आधारित समाधान के बराबर प्रदर्शन प्राप्त कर सकता है।