इस पेपर में, हम प्रॉक्सिमल पॉलिसी ऑप्टिमाइजेशन (PPO) एल्गोरिदम का उपयोग करके न्यूरो-फ़ज़ी कंट्रोलर को प्रशिक्षित करने के लिए एक सुदृढीकरण सीखने की विधि प्रस्तुत करते हैं। अनुकूली न्यूरो-फ़ज़ी इंफ़रेंस सिस्टम (ANFIS) के लिए डीप क्यू-नेटवर्क (DQN) का उपयोग करने वाली मौजूदा विधियों के विपरीत, हम एक PPO-आधारित ढाँचा प्रस्तावित करते हैं जो एक स्थिर ऑन-पॉलिसी एक्टर-क्रिटिक संरचना का उपयोग करता है। जब विभिन्न बीजों के साथ कार्टपोल-v1 वातावरण में मूल्यांकन किया जाता है, तो PPO के साथ प्रशिक्षित फ़ज़ी एजेंट लगातार 20,000 अपडेट के बाद शून्य भिन्नता के साथ 500 का अधिकतम इनाम प्राप्त करता है, जो स्थिरता और अभिसरण गति के मामले में ANFIS-DQN बेसलाइन मॉडल से बेहतर प्रदर्शन करता है। यह सुदृढीकरण सीखने के कार्यों में व्याख्यात्मक न्यूरो-फ़ज़ी एजेंटों को प्रशिक्षित करने के लिए PPO की क्षमता को प्रदर्शित करता है।