एक बहु-एजेंट वातावरण में, एजेंट का लक्ष्य अपने प्रतिद्वंद्वी के विरुद्ध अपने कुल पुरस्कार को अधिकतम करना होता है। नैश संतुलन जैसे खेल-सैद्धांतिक समाधान कुछ वातावरणों में मज़बूत प्रदर्शन प्राप्त कर सकते हैं, लेकिन वे बार-बार होने वाली अंतःक्रियाओं से प्राप्त ऐतिहासिक और प्रेक्षित आँकड़ों का लाभ उठाने में विफल रहते हैं। प्रतिकूल मॉडलिंग एल्गोरिदम, गैर-इष्टतम प्रतिद्वंद्वियों का शोषण करने के लिए उपलब्ध आँकड़ों का उपयोग करने हेतु मशीन लर्निंग तकनीकों को शामिल करते हैं, लेकिन अपूर्ण जानकारी वाले खेलों में इन तरीकों की प्रभावशीलता आज तक सीमित रही है। यह शोधपत्र दर्शाता है कि मौजूदा प्रतिकूल मॉडलिंग दृष्टिकोण एक सरल वांछनीय गुण को पूरा करने में विफल रहते हैं, यहाँ तक कि ज्ञात पूर्व वितरण से चुने गए स्थिर प्रतिद्वंद्वियों के लिए भी। अर्थात्, वे यह गारंटी देने में विफल रहते हैं कि मॉडल प्रतिद्वंद्वी की वास्तविक रणनीति का अनुमान लगाता है क्योंकि खेल पुनरावृत्तियों की संख्या अनंत के करीब पहुँचती है। इस शोधपत्र में, हम एक नया एल्गोरिथ्म विकसित करते हैं जो इस गुण को प्राप्त करता है और प्रक्षेपित ग्रेडिएंट अवरोहण का उपयोग करके अनुक्रम-रूप खेल निरूपण पर आधारित एक उत्तल न्यूनीकरण समस्या को कुशलतापूर्वक हल करता है। यह एल्गोरिथ्म खेल के अवलोकनों और, यदि उपलब्ध हो, तो अतिरिक्त ऐतिहासिक आँकड़ों का उपयोग करके, प्रतिद्वंद्वी की वास्तविक रणनीति के साथ कुशलतापूर्वक अभिसरित होने की गारंटी देता है।