दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

CaRL: सरल पुरस्कारों के साथ स्केलेबल योजना नीतियों को सीखना

Created by
  • Haebom

लेखक

बर्नहार्ड जैगर, डेनियल डौनर, जेन्स बेईवेंगर, साइमन गेरस्टेनेकर, कश्यप चित्ता, एंड्रियास गीगर

रूपरेखा

यह शोधपत्र स्वचालित ड्राइविंग में विशेषाधिकार प्राप्त नियोजन हेतु सुदृढीकरण अधिगम (RL) का अध्ययन करता है। मौजूदा दृष्टिकोण नियम-आधारित हैं, लेकिन उनमें मापनीयता का अभाव है। इसके विपरीत, RL उच्च मापनीयता प्रदान करता है और अनुकरण अधिगम की संचयी त्रुटि समस्या से बचाता है। स्वचालित ड्राइविंग के लिए मौजूदा RL दृष्टिकोण जटिल पुरस्कार फलनों का उपयोग करते हैं जो प्रगति, स्थिति और अभिविन्यास जैसे कई व्यक्तिगत पुरस्कारों को एकत्रित करते हैं। यह शोधपत्र दर्शाता है कि मिनी-बैच आकार बढ़ने पर PPO इन पुरस्कार फलनों को अनुकूलित करने में विफल रहता है, जिससे इसकी मापनीयता सीमित हो जाती है। इसलिए, यह शोधपत्र एक नवीन पुरस्कार डिज़ाइन प्रस्तावित करता है जो एकल सहज पुरस्कार, पथ पूर्णता, को अनुकूलित करता है। उल्लंघनों के लिए प्रकरण को समाप्त करके या पथ पूर्णता को गुणा करके दंडित किया जाता है। हम प्रदर्शित करते हैं कि प्रस्तावित सरल पुरस्कार के साथ प्रशिक्षित PPO बड़े मिनी-बैच आकारों के साथ अच्छी तरह से मापता है और बेहतर प्रदर्शन प्राप्त करता है। बड़े मिनी-बैच आकारों के साथ प्रशिक्षण वितरित डेटा समानांतरता के माध्यम से कुशल मापन को सक्षम बनाता है। हमने एकल 8-GPU नोड पर CARLA में 300 मिलियन नमूनों और nuPlan में 500 मिलियन नमूनों तक प्रशिक्षण को बढ़ाया। परिणामी मॉडल ने CARLA longest6 v2 बेंचमार्क पर 64 DS अंक प्राप्त किए, जो अधिक जटिल रिवॉर्ड्स का उपयोग करने वाली अन्य RL विधियों से उल्लेखनीय रूप से बेहतर प्रदर्शन था। CARLA पद्धति में न्यूनतम संशोधनों के साथ, इसने nuPlan पर सर्वोत्तम शिक्षण-आधारित दृष्टिकोण भी प्राप्त किया। Val14 बेंचमार्क पर, इसने गैर-प्रतिक्रियाशील ट्रैफ़िक के लिए 91.3 अंक और प्रतिक्रियाशील ट्रैफ़िक के लिए 90.6 अंक प्राप्त किए, जो पिछले शोध की तुलना में 10 गुना सुधार था।

Takeaways, Limitations

Takeaways:
हम एक सरल पथ पूर्णता पुरस्कार फ़ंक्शन का उपयोग करके PPO की मापनीयता में महत्वपूर्ण सुधार करते हैं।
हम बड़े डेटासेट को कुशलतापूर्वक सीखने के लिए एक विधि प्रस्तुत करते हैं।
हमने CARLA और nuPlan दोनों बेंचमार्क पर SOTA प्रदर्शन हासिल किया।
हम मौजूदा जटिल पुरस्कार कार्यों की तुलना में एक सरल और अधिक प्रभावी पुरस्कार कार्य का प्रस्ताव करते हैं।
Limitations:
यह निर्धारित करने के लिए कि क्या प्रस्तावित विधि सभी स्वचालित ड्राइविंग वातावरणों पर लागू है, आगे अनुसंधान की आवश्यकता है।
पुरस्कार फ़ंक्शन के सरलीकरण के परिणामस्वरूप कुछ स्थितियों में प्रदर्शन में गिरावट आ सकती है।
चूंकि प्रयोग के परिणाम 8-GPU नोड्स का उपयोग करके प्राप्त किए गए थे, इसलिए कम GPU वाले वातावरण में प्रदर्शन की पुष्टि नहीं की गई है।
👍