यह शोधपत्र एल्गोरिथम आधारित निर्णय-प्रक्रिया का अध्ययन करता है जिसमें रणनीतिक व्यक्तिगत व्यवहार विद्यमान होता है, जहाँ मशीन लर्निंग (एमएल) मॉडल मानव व्यवहार के बारे में निर्णय लेते हैं और लोग भविष्य के आँकड़ों को बेहतर बनाने के लिए रणनीतिक रूप से अपने व्यवहार में बदलाव कर सकते हैं। रणनीतिक लर्निंग पर पिछले शोध मुख्यतः रैखिक परिस्थितियों पर केंद्रित रहे हैं, जहाँ रैखिक लेबलिंग फ़ंक्शन वाले एजेंट (शोरयुक्त) रैखिक निर्णय नीतियों पर इष्टतम प्रतिक्रिया देते हैं। इसके विपरीत, यह शोधपत्र सामान्य अरैखिक परिस्थितियों पर केंद्रित है, जहाँ एजेंट केवल नीति के बारे में "स्थानीय जानकारी" के आधार पर निर्णय नीतियों पर प्रतिक्रिया देते हैं। इसके अलावा, हम निर्णयकर्ता कल्याण (मॉडल भविष्यवाणी सटीकता), सामाजिक कल्याण (रणनीतिक व्यवहार के कारण एजेंट सुधार), और एजेंट कल्याण (एमएल द्वारा एजेंट को कम आंकने की सीमा) पर एक साथ विचार करते हैं। सबसे पहले, हम पिछले शोध से एजेंट-इष्टतम प्रतिक्रिया मॉडल को अरैखिक परिस्थितियों में सामान्यीकृत करते हैं और फिर कल्याण उद्देश्यों की अनुकूलता प्रदर्शित करते हैं। हम दर्शाते हैं कि तीनों कल्याण उद्देश्य केवल सीमित परिस्थितियों में ही एक साथ इष्टतम हो सकते हैं जिन्हें अरैखिक परिस्थितियों में प्राप्त करना कठिन होता है। सैद्धांतिक परिणामों का तात्पर्य है कि मौजूदा शोध जो केवल पक्षों के एक उपसमूह के कल्याण को अधिकतम करता है, अनिवार्य रूप से अन्य पक्षों के कल्याण को कम करता है। इसलिए, हम एक अरैखिक परिवेश में प्रत्येक पक्ष के कल्याण को संतुलित करने की आवश्यकता पर ज़ोर देते हैं और सामान्य रणनीतिक अधिगम के लिए उपयुक्त एक अनिश्चित अनुकूलन एल्गोरिथम प्रस्तावित करते हैं। हम प्रस्तावित एल्गोरिथम की प्रभावशीलता को संश्लेषित और वास्तविक-विश्व डेटा पर प्रयोगों के माध्यम से सत्यापित करते हैं।