यह पत्र वास्तविक दुनिया के परिदृश्यों में, जहाँ पुरस्कार संकेत अत्यंत दुर्लभ हैं, एक प्रभावी पुरस्कार फलन सीखने की चुनौती का समाधान करने के लिए एक प्रस्तावित विधि प्रस्तुत करता है। प्रस्तावित विधि शून्य-पुरस्कार संक्रमण सहित सभी संक्रमणों का उपयोग करके पुरस्कार निर्माण करती है। विशेष रूप से, यह अर्ध-पर्यवेक्षित अधिगम (SSL) और एक नवीन डेटा संवर्द्धन तकनीक को मिलाकर शून्य-पुरस्कार संक्रमण से प्रक्षेप पथ निरूपण सीखती है, जिससे पुरस्कार निर्माण की दक्षता में वृद्धि होती है। अटारी गेम्स और रोबोट हेरफेर पर प्रायोगिक परिणाम दर्शाते हैं कि प्रस्तावित विधि पुरस्कार अनुमान में पर्यवेक्षित अधिगम-आधारित विधियों से बेहतर प्रदर्शन करती है और एजेंट स्कोर में सुधार करती है। विशेष रूप से, ऐसे वातावरण में जहाँ पुरस्कार और भी दुर्लभ हैं, प्रस्तावित विधि अपनी श्रेणी में सर्वश्रेष्ठ स्कोर प्राप्त करती है जो मौजूदा विधियों की तुलना में दोगुना तक होता है। प्रस्तावित द्वि-एन्ट्रॉपी डेटा संवर्द्धन तकनीक प्रदर्शन में उल्लेखनीय रूप से सुधार करती है, और अपनी श्रेणी में सर्वश्रेष्ठ स्कोर प्राप्त करती है जो अन्य संवर्द्धन विधियों की तुलना में 15.8% अधिक है।