दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

प्रसार नीति के साथ वितरणात्मक सॉफ्ट एक्टर-आलोचक

Created by
  • Haebom

लेखक

टोंग लियू, यिनुओ वांग, ज़ुजी सॉन्ग, वेनजुन ज़ो, लियांगफ़ा चेन, लिकुन वांग, बिन शुआई, जिंगलियांग डुआन, शेंगबो एबेन ली

रूपरेखा

इस पत्र में, हम DSAC-D, एक वितरित सॉफ्ट एक्टर क्रिटिक एल्गोरिथ्म का प्रस्ताव करते हैं जो मूल्य फ़ंक्शन अनुमान और मल्टीमॉडल नीति प्रतिनिधित्व में पूर्वाग्रह की समस्या को हल करने के लिए प्रसार नीति का उपयोग करता है। मौजूदा सुदृढीकरण सीखने के एल्गोरिदम के विपरीत जो यूनिमॉडल वितरण (जैसे, गॉसियन वितरण) का उपयोग करके मूल्य वितरण को मॉडल करते हैं, DSAC-D एक प्रसार मूल्य नेटवर्क का निर्माण करता है जो मल्टीमॉडल मूल्य वितरण को सटीक रूप से चिह्नित करता है। प्रसार मॉडल का उपयोग करके बैकसैंपलिंग के माध्यम से इनाम नमूनों का एक सेट उत्पन्न करके यह संभव है। नीति एन्ट्रॉपी और मूल्य वितरण कार्यों को पेश करके, हम एक मल्टीमॉडल वितरण नीति पुनरावृत्ति ढांचा बनाते हैं जो इष्टतम नीति में परिवर्तित होता है, और मूल्य नेटवर्क और नीति नेटवर्क के दोहरे प्रसार के आधार पर एक वितरित सुदृढीकरण सीखने का एल्गोरिदम प्राप्त करता है। म्यूजोको सिमुलेशन और वास्तविक वाहन परीक्षणों के परिणाम दर्शाते हैं कि डीएसएसी-डी न केवल मल्टीमॉडल नीतियों को सीखता है, बल्कि मौजूदा एल्गोरिदम की तुलना में औसत पुरस्कार में 10% से अधिक सुधार करता है, तथा मल्टीमॉडल वितरण को सटीक रूप से चिह्नित करता है और विभिन्न ड्राइविंग शैलियों के मल्टीमॉडल प्रक्षेप पथों को व्यक्त करता है।

Takeaways, Limitations

Takeaways:
हम एक नवीन वितरित सुदृढीकरण अधिगम एल्गोरिथ्म, डीएसएसी-डी, का प्रस्ताव करते हैं, जो मूल्य फ़ंक्शन आकलन में पूर्वाग्रह समस्या को प्रभावी ढंग से हल करता है।
बहुविधीय नीति प्रतिनिधित्व के माध्यम से जटिल नियंत्रण कार्यों पर बेहतर प्रदर्शन प्राप्त करना।
म्यूजोको 9 नियंत्रण कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त करता है और मौजूदा एल्गोरिदम की तुलना में औसत पुरस्कार में 10% से अधिक सुधार करता है।
वास्तविक वाहन परीक्षणों ने सत्यापित किया है कि विभिन्न ड्राइविंग शैलियों के बहुविध वितरण और बहुविध प्रक्षेप पथों को सटीक रूप से चित्रित किया गया है।
Limitations:
एल्गोरिथम जटिलता के कारण कम्प्यूटेशनल लागत में संभावित वृद्धि।
वास्तविक विश्व में वाहन परीक्षण के दायरे और सामान्यीकरण को निर्धारित करने के लिए और अधिक शोध की आवश्यकता है।
यह निर्धारित करने के लिए आगे सत्यापन की आवश्यकता है कि क्या MuJoCo वातावरण में उत्कृष्ट प्रदर्शन अन्य वातावरणों में भी कायम रहेगा।
👍