यह पत्र एक ऐसी विधि प्रस्तावित करता है जो बहु-एजेंट सुदृढीकरण अधिगम में सुरक्षा संबंधी मुद्दों के समाधान हेतु, व्यक्तिगत एजेंटों के बजाय, पूरी टीम पर प्रतिबंधों का लाभ उठाती है। मौजूदा सुरक्षित सुदृढीकरण अधिगम एल्गोरिदम, अन्वेषण को सीमित करने के लिए एजेंट के व्यवहार को प्रतिबंधित करते हैं, जो प्रभावी सहकारी व्यवहारों की खोज के लिए अत्यंत महत्वपूर्ण है। इस पत्र में, हम एन्ट्रॉपी सर्च (E2C) प्रस्तुत करते हैं, जो प्रतिबंधित बहु-एजेंट सुदृढीकरण अधिगम की एक विधि है। E2C अवलोकन एन्ट्रॉपी को अधिकतम करके अन्वेषण को प्रोत्साहित करता है, जिससे सुरक्षित और प्रभावी सहकारी व्यवहारों को सीखना आसान हो जाता है। व्यापक प्रयोगात्मक परिणाम दर्शाते हैं कि E2C मौजूदा अप्रतिबंधित और प्रतिबंधित आधारभूत मॉडलों के बराबर या उनसे बेहतर प्रदर्शन करता है, जिससे असुरक्षित व्यवहारों में 50% तक की कमी आती है।