इस पत्र में, हम DSAC-D, एक वितरित सॉफ्ट एक्टर क्रिटिक एल्गोरिथ्म का प्रस्ताव करते हैं जो मूल्य फ़ंक्शन अनुमान और मल्टीमॉडल नीति प्रतिनिधित्व में पूर्वाग्रह की समस्या को हल करने के लिए प्रसार नीति का उपयोग करता है। मौजूदा सुदृढीकरण सीखने के एल्गोरिदम के विपरीत जो यूनिमॉडल वितरण (जैसे, गॉसियन वितरण) का उपयोग करके मूल्य वितरण को मॉडल करते हैं, DSAC-D एक प्रसार मूल्य नेटवर्क का निर्माण करता है जो मल्टीमॉडल मूल्य वितरण को सटीक रूप से चिह्नित करता है। प्रसार मॉडल का उपयोग करके बैकसैंपलिंग के माध्यम से इनाम नमूनों का एक सेट उत्पन्न करके यह संभव है। नीति एन्ट्रॉपी और मूल्य वितरण कार्यों को पेश करके, हम एक मल्टीमॉडल वितरण नीति पुनरावृत्ति ढांचा बनाते हैं जो इष्टतम नीति में परिवर्तित होता है, और मूल्य नेटवर्क और नीति नेटवर्क के दोहरे प्रसार के आधार पर एक वितरित सुदृढीकरण सीखने का एल्गोरिदम प्राप्त करता है। म्यूजोको सिमुलेशन और वास्तविक वाहन परीक्षणों के परिणाम दर्शाते हैं कि डीएसएसी-डी न केवल मल्टीमॉडल नीतियों को सीखता है, बल्कि मौजूदा एल्गोरिदम की तुलना में औसत पुरस्कार में 10% से अधिक सुधार करता है, तथा मल्टीमॉडल वितरण को सटीक रूप से चिह्नित करता है और विभिन्न ड्राइविंग शैलियों के मल्टीमॉडल प्रक्षेप पथों को व्यक्त करता है।