दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

अपूर्ण-सूचना खेलों में स्थिर प्रतिद्वंद्वियों का सुसंगत प्रतिद्वंद्वियों का मॉडलिंग

Created by
  • Haebom

लेखक

सैम गैंज़फ्राइड

रूपरेखा

एक बहु-एजेंट वातावरण में, एजेंट का लक्ष्य अपने प्रतिद्वंद्वी के विरुद्ध अपने कुल पुरस्कार को अधिकतम करना होता है। नैश संतुलन जैसे खेल-सैद्धांतिक समाधान कुछ वातावरणों में मज़बूत प्रदर्शन प्राप्त कर सकते हैं, लेकिन वे बार-बार होने वाली अंतःक्रियाओं से प्राप्त ऐतिहासिक और प्रेक्षित आँकड़ों का लाभ उठाने में विफल रहते हैं। प्रतिकूल मॉडलिंग एल्गोरिदम, गैर-इष्टतम प्रतिद्वंद्वियों का शोषण करने के लिए उपलब्ध आँकड़ों का उपयोग करने हेतु मशीन लर्निंग तकनीकों को शामिल करते हैं, लेकिन अपूर्ण जानकारी वाले खेलों में इन तरीकों की प्रभावशीलता आज तक सीमित रही है। यह शोधपत्र दर्शाता है कि मौजूदा प्रतिकूल मॉडलिंग दृष्टिकोण एक सरल वांछनीय गुण को पूरा करने में विफल रहते हैं, यहाँ तक कि ज्ञात पूर्व वितरण से चुने गए स्थिर प्रतिद्वंद्वियों के लिए भी। अर्थात्, वे यह गारंटी देने में विफल रहते हैं कि मॉडल प्रतिद्वंद्वी की वास्तविक रणनीति का अनुमान लगाता है क्योंकि खेल पुनरावृत्तियों की संख्या अनंत के करीब पहुँचती है। इस शोधपत्र में, हम एक नया एल्गोरिथ्म विकसित करते हैं जो इस गुण को प्राप्त करता है और प्रक्षेपित ग्रेडिएंट अवरोहण का उपयोग करके अनुक्रम-रूप खेल निरूपण पर आधारित एक उत्तल न्यूनीकरण समस्या को कुशलतापूर्वक हल करता है। यह एल्गोरिथ्म खेल के अवलोकनों और, यदि उपलब्ध हो, तो अतिरिक्त ऐतिहासिक आँकड़ों का उपयोग करके, प्रतिद्वंद्वी की वास्तविक रणनीति के साथ कुशलतापूर्वक अभिसरित होने की गारंटी देता है।

Takeaways, Limitations

Takeaways: हम एक नया एल्गोरिथम प्रस्तुत करते हैं जो अपूर्ण सूचना वाले खेलों में प्रतिद्वंदी मॉडलिंग की प्रभावशीलता को बेहतर बनाता है। यह एल्गोरिथम प्रतिद्वंदी की वास्तविक रणनीति के साथ तालमेल बिठाने की गारंटी देता है और एक कुशल उत्तल न्यूनीकरण समस्या को हल करके कार्य करता है। यह मौजूदा एल्गोरिथम की सीमाओं को पार करता है और खेल के पुनरावृत्तियों की संख्या बढ़ने पर प्रतिद्वंदी की रणनीतियों का सटीक अनुमान लगा सकता है।
Limitations: एल्गोरिथम का प्रदर्शन अनुक्रम रूप में खेल के प्रतिनिधित्व पर निर्भर करता है, और यह निर्धारित करने के लिए कि क्या यह सभी खेलों पर लागू होता है, आगे शोध की आवश्यकता है। एल्गोरिथम की दक्षता खेल के आकार और जटिलता के आधार पर भिन्न हो सकती है। वास्तविक दुनिया के खेल परिवेशों में इसके सामान्यीकरण प्रदर्शन का आगे प्रयोगात्मक सत्यापन आवश्यक है।
👍