इस पत्र में, हम प्रसार नीतियों की __T9844__ समस्या के समाधान हेतु एक शोर-वातानुकूलित नियतात्मक नीति अनुकूलन (NCDPO) ढाँचा प्रस्तावित करते हैं। प्रसार नीतियाँ प्रबल अभिव्यंजक शक्ति वाली विभिन्न तकनीकों को सीख सकती हैं, लेकिन डेमो डेटा की कमी और अपर्याप्तता के कारण वे उप-इष्टतम प्रक्षेप पथ उत्पन्न कर सकती हैं या गंभीर त्रुटियाँ उत्पन्न कर सकती हैं। शोर-मुक्ति प्रक्रिया के दौरान क्रिया संभावनाओं का अनुमान लगाने की कम्प्यूटेशनल कठिनाई के कारण, मौजूदा सुदृढीकरण अधिगम-आधारित फ़ाइन-ट्यूनिंग विधियों को प्रसार मॉडल पर PPO को प्रभावी ढंग से लागू करने में कठिनाई होती है। NCDPO प्रत्येक शोर-मुक्ति चरण को पूर्व-नमूना शोर पर आधारित एक अवकलनीय परिवर्तन के रूप में मानता है, जिससे सभी प्रसार चरणों में अनुमान और प्रतिप्रसार संभव होता है। प्रायोगिक परिणाम दर्शाते हैं कि NCDPO विभिन्न बेंचमार्क (निरंतर रोबोट नियंत्रण और बहु-एजेंट गेम परिदृश्यों सहित) पर नमूना दक्षता और अंतिम प्रदर्शन, दोनों में मौजूदा विधियों से बेहतर प्रदर्शन करता है। विशेष रूप से, यह यादृच्छिक रूप से आरंभ की गई नीतियों से सीखते समय MLP+PPO के समान नमूना दक्षता प्राप्त करता है, और प्रसार चरणों की संख्या के लिए मजबूत है।