[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

डेटा-कुशल RL के लिए ट्रांसफॉर्मर वर्ल्ड मॉडल में सुधार

Created by
  • Haebom

लेखक

एंटोनी डेडियू, जोसेफ ऑर्टिज़, ज़िंगहुआ लू, कार्टर वेंडेलकेन, वोल्फगैंग लेहराच, जे स्वरूप गुंटुपल्ली, मिगुएल लाज़ारो-ग्रेडिला, केविन पैट्रिक मर्फी

रूपरेखा

यह शोधपत्र ट्रांसफ़ॉर्मर पर आधारित मानक मॉडल-आधारित सुदृढीकरण अधिगम प्रतिमान में तीन सुधार प्रस्तुत करता है। पहला, "डायना विद वार्मअप" वास्तविक और कल्पित, दोनों डेटा का उपयोग करके नीति को प्रशिक्षित करता है, लेकिन कल्पित डेटा का उपयोग विश्व मॉडल के पर्याप्त रूप से प्रशिक्षित होने के बाद ही शुरू करता है। दूसरा, छवि पैच के लिए "निकटतम पड़ोसी टोकनाइज़र" ट्रांसफ़ॉर्मर विश्व मॉडल (TWM) का उपयोग करते समय आवश्यक पिछले टोकनाइज़र दृष्टिकोण को बेहतर बनाता है, यह सुनिश्चित करके कि कोड शब्द जनरेशन के बाद स्थिर होते हैं, जिससे TWM अधिगम के लिए एक सुसंगत लक्ष्य प्रदान होता है। तीसरा, "ब्लॉक शिक्षक प्रवर्तन" TWM को क्रमिक रूप से उत्पन्न करने के बजाय अगले समय चरण के लिए भविष्य के टोकनों का संयुक्त रूप से अनुमान लगाने की अनुमति देता है। प्रस्तावित विधि विभिन्न वातावरणों में पिछली विधियों की तुलना में महत्वपूर्ण प्रदर्शन सुधार प्रदर्शित करती है। विशेष रूप से, यह क्राफ्टैक्स-क्लासिक बेंचमार्क पर 1 मिलियन वातावरण चरणों के बाद 69.66% रिवॉर्ड प्राप्त करता है, जो ड्रीमरV3 (53.2%) से काफी बेहतर प्रदर्शन करता है और पहली बार मानव-स्तर (65.0%) को पार करता है। हम क्राफ्टैक्स-फुल, मिनाटार और तीन अन्य दो-खिलाड़ी खेलों पर प्रारंभिक परिणामों के माध्यम से दृष्टिकोण की व्यापकता को भी प्रदर्शित करते हैं।

Takeaways, Limitations

Takeaways: हम तीन नई तकनीकें प्रस्तुत करते हैं (डायना विद वार्मअप, नियरेस्ट नेबर टोकनाइज़र, ब्लॉक टीचर फ़ोर्सिंग) जो ट्रांसफ़ॉर्मर-आधारित सुदृढीकरण सीखने के प्रदर्शन में उल्लेखनीय सुधार करती हैं, और क्राफ्टैक्स-क्लासिक पर मानव-स्तर के प्रदर्शन को पार करने वाले परिणाम प्राप्त करती हैं। विभिन्न वातावरणों में प्रायोगिक परिणाम प्रस्तावित विधि की व्यापकता को प्रदर्शित करते हैं।
Limitations: क्राफ्टैक्स-फुल, मिनाटार और 2-प्लेयर गेम्स के परिणाम प्रारंभिक हैं और इनके लिए अधिक गहन विश्लेषण और अतिरिक्त प्रयोगों की आवश्यकता है। यह निर्धारित करने के लिए अतिरिक्त शोध की आवश्यकता है कि प्रस्तावित विधि सभी वातावरणों में समान रूप से प्रभावी है या नहीं।
👍