दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

अनुकरण से अनुकूलन तक: स्वायत्त ड्राइविंग के लिए ऑफ़लाइन सीखने का एक तुलनात्मक अध्ययन

Created by
  • Haebom

लेखक

एंटोनियो गुइलेन-पेरेज़

रूपरेखा

यह पत्र बड़े पैमाने के वास्तविक-विश्व डेटासेट से मज़बूत स्वायत्त ड्राइविंग नीतियों को सीखने की समस्या को संबोधित करता है। ऑनलाइन डेटा संग्रह की चुनौतियों पर विचार करते हुए, हम व्यवहार क्लोनिंग (बीसी) तकनीक पर आधारित मॉडलों की एक श्रृंखला प्रस्तावित करते हैं और कई बीसी बेसलाइन मॉडलों की तुलना और अध्ययन करते हैं, जिसमें एक ट्रांसफॉर्मर-आधारित इकाई-केंद्रित अवस्था प्रतिनिधित्व मॉडल भी शामिल है। हालाँकि, बीसी मॉडल दीर्घकालिक सिमुलेशन में कमजोरियाँ प्रदर्शित करते हैं। इसे संबोधित करने के लिए, हम अधिक मज़बूत नीतियों को सीखने के लिए उसी डेटा और आर्किटेक्चर पर कंजर्वेटिव क्यू-लर्निंग (सीक्यूएल), एक अत्याधुनिक ऑफ़लाइन सुदृढीकरण सीखने वाला एल्गोरिदम, लागू करते हैं। सावधानीपूर्वक डिज़ाइन किए गए रिवॉर्ड फ़ंक्शन का उपयोग करके, सीक्यूएल एजेंट एक रूढ़िवादी मूल्य फ़ंक्शन सीखता है जो छोटी त्रुटियों से उबरता है और वितरण-से-बाहर की स्थितियों से बचता है यह स्थैतिक विशेषज्ञ डेटा से मजबूत, दीर्घकालिक स्वायत्त ड्राइविंग नीतियों को सीखने के लिए ऑफ़लाइन सुदृढीकरण सीखने के तरीकों के महत्व को दर्शाता है।

Takeaways, Limitations

Takeaways:
हम प्रदर्शित करते हैं कि ऑफ़लाइन सुदृढीकरण सीखने (सीक्यूएल) का उपयोग स्वायत्त ड्राइविंग नीतियों को सीखने के लिए किया जा सकता है जो व्यवहार प्रतिकृति (बीसी) की तुलना में काफी अधिक मजबूत और दीर्घकालिक हैं।
इकाई-केंद्रित स्थिति अभ्यावेदन का उपयोग करने वाले ट्रांसफार्मर-आधारित मॉडल बीसी तकनीकों में अच्छा प्रदर्शन करते हैं, लेकिन ऑफ़लाइन सुदृढीकरण सीखने के साथ संयुक्त होने पर और भी बेहतर प्रदर्शन प्राप्त करते हैं।
सावधानीपूर्वक डिज़ाइन किया गया रिवॉर्ड फ़ंक्शन CQL एजेंट की मजबूती में महत्वपूर्ण भूमिका निभाता है।
प्रस्तावित विधि की प्रभावशीलता को वेमो ओपन मोशन डेटासेट का उपयोग करके बड़े पैमाने पर प्रयोगों के माध्यम से सत्यापित किया गया।
Limitations:
पुरस्कार फ़ंक्शन को डिज़ाइन करना एक चुनौतीपूर्ण कार्य है, और इसका डिज़ाइन प्रदर्शन को महत्वपूर्ण रूप से प्रभावित कर सकता है।
सीक्यूएल एल्गोरिथ्म कम्प्यूटेशनल रूप से महंगा हो सकता है।
वास्तविक दुनिया के वातावरण में प्रदर्शन के लिए आगे सत्यापन की आवश्यकता होती है।
सामान्यीकरण प्रदर्शन प्रयुक्त डेटासेट की विशेषताओं के आधार पर भिन्न हो सकता है।
👍