यह शोधपत्र स्वचालित ड्राइविंग में विशेषाधिकार प्राप्त नियोजन हेतु सुदृढीकरण अधिगम (RL) का अध्ययन करता है। मौजूदा दृष्टिकोण नियम-आधारित हैं, लेकिन उनमें मापनीयता का अभाव है। इसके विपरीत, RL उच्च मापनीयता प्रदान करता है और अनुकरण अधिगम की संचयी त्रुटि समस्या से बचाता है। स्वचालित ड्राइविंग के लिए मौजूदा RL दृष्टिकोण जटिल पुरस्कार फलनों का उपयोग करते हैं जो प्रगति, स्थिति और अभिविन्यास जैसे कई व्यक्तिगत पुरस्कारों को एकत्रित करते हैं। यह शोधपत्र दर्शाता है कि मिनी-बैच आकार बढ़ने पर PPO इन पुरस्कार फलनों को अनुकूलित करने में विफल रहता है, जिससे इसकी मापनीयता सीमित हो जाती है। इसलिए, यह शोधपत्र एक नवीन पुरस्कार डिज़ाइन प्रस्तावित करता है जो एकल सहज पुरस्कार, पथ पूर्णता, को अनुकूलित करता है। उल्लंघनों के लिए प्रकरण को समाप्त करके या पथ पूर्णता को गुणा करके दंडित किया जाता है। हम प्रदर्शित करते हैं कि प्रस्तावित सरल पुरस्कार के साथ प्रशिक्षित PPO बड़े मिनी-बैच आकारों के साथ अच्छी तरह से मापता है और बेहतर प्रदर्शन प्राप्त करता है। बड़े मिनी-बैच आकारों के साथ प्रशिक्षण वितरित डेटा समानांतरता के माध्यम से कुशल मापन को सक्षम बनाता है। हमने एकल 8-GPU नोड पर CARLA में 300 मिलियन नमूनों और nuPlan में 500 मिलियन नमूनों तक प्रशिक्षण को बढ़ाया। परिणामी मॉडल ने CARLA longest6 v2 बेंचमार्क पर 64 DS अंक प्राप्त किए, जो अधिक जटिल रिवॉर्ड्स का उपयोग करने वाली अन्य RL विधियों से उल्लेखनीय रूप से बेहतर प्रदर्शन था। CARLA पद्धति में न्यूनतम संशोधनों के साथ, इसने nuPlan पर सर्वोत्तम शिक्षण-आधारित दृष्टिकोण भी प्राप्त किया। Val14 बेंचमार्क पर, इसने गैर-प्रतिक्रियाशील ट्रैफ़िक के लिए 91.3 अंक और प्रतिक्रियाशील ट्रैफ़िक के लिए 90.6 अंक प्राप्त किए, जो पिछले शोध की तुलना में 10 गुना सुधार था।