दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

गेम एजेंटों के लिए शैली-संरक्षण नीति अनुकूलन

Created by
  • Haebom

लेखक

लिंगफेंग ली, युनलोंग लू, योंग्यी वांग, वेन्क्सिन ली

रूपरेखा

यह पत्र उस समस्या का समाधान प्रस्तावित करता है कि सुदृढीकरण सीखने पर आधारित गेम एआई कौशल में सुधार पर केंद्रित है, जबकि विकासवादी एल्गोरिदम-आधारित विधियां विविध खेल शैलियों को उत्पन्न करती हैं लेकिन खराब प्रदर्शन से ग्रस्त हैं। हम मिश्रित समीपस्थ नीति अनुकूलन (एमपीपीओ) प्रस्तुत करते हैं, एक विधि जो मौजूदा कम प्रदर्शन करने वाले एजेंटों के कौशल को उनके अद्वितीय शैलियों को बनाए रखते हुए सुधारती है। एमपीपीओ ऑनलाइन और ऑफलाइन नमूनों के लिए हानि उद्देश्यों को एकीकृत करता है और अंतर्निहित बाधाओं को प्रस्तुत करता है जो नमूनों के अनुभवजन्य वितरण को समायोजित करके डेमो एजेंट की नीति का अनुमान लगाते हैं। विभिन्न पैमानों के वातावरण पर प्रायोगिक परिणाम दर्शाते हैं कि एमपीपीओ डेमो एजेंट की खेल शैलियों को संरक्षित करते हुए विशुद्ध रूप से ऑनलाइन एल्गोरिदम के समान या उससे बेहतर कौशल स्तर प्राप्त करता है।

Takeaways, Limitations

Takeaways:
दक्षता और विविधता के बीच व्यापार-बंद को प्रभावी ढंग से हल करने के लिए एक विधि प्रस्तुत करना, जो मौजूदा सुदृढीकरण सीखने-आधारित गेम एआई की एक सीमा है।
एमपीपीओ के माध्यम से उच्च प्रदर्शन और विविध खेल शैली वाले गेम एजेंट उत्पन्न करने की व्यवहार्यता का प्रदर्शन करना।
गेमिंग अनुभव की गुणवत्ता में सुधार और पुनः खेलने के मूल्य को बढ़ाने में योगदान देता है।
Limitations:
प्रस्तावित विधि के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
विविध गेमिंग वातावरणों और जटिलताओं में एमपीपीओ की प्रयोज्यता और दक्षता के आगे सत्यापन की आवश्यकता है।
इस बात पर अधिक गहन विश्लेषण की आवश्यकता है कि डेमो एजेंटों का चयन और गुणवत्ता अंतिम परिणाम को किस प्रकार प्रभावित करती है।
👍