इस पत्र में, हम इलेक्ट्रोएन्सेफेलोग्राफी (ईईजी) का उपयोग करते हुए एक अंतर्निहित मानव प्रतिक्रिया-आधारित सुदृढीकरण सीखने (आरएलआईएचएफ) ढांचे का प्रस्ताव करते हैं ताकि पारंपरिक सुदृढीकरण सीखने (आरएल) की सीमाओं को दूर किया जा सके, जो विरल इनाम वातावरण में प्रभावी नीतियों को सीखने के लिए संघर्ष करता है। हम स्पष्ट उपयोगकर्ता हस्तक्षेप के बिना निरंतर अंतर्निहित प्रतिक्रिया प्रदान करने के लिए त्रुटि-संबंधित क्षमताओं (ईआरआरपी) का उपयोग करते हैं, और विरल बाहरी इनाम वातावरण में भी प्रभावी नीति सीखने को सक्षम करने के लिए पूर्व-प्रशिक्षित डिकोडर के माध्यम से कच्चे ईईजी संकेतों को संभाव्य इनाम घटकों में बदलते हैं। हम MuJoCo भौतिकी इंजन पर आधारित सिमुलेशन वातावरण में किनोवा जेन2 रोबोटिक आर्म का उपयोग करके बाधा से बचाव और ऑब्जेक्ट हेरफेर कार्यों पर प्रस्तावित विधि का मूल्यांकन करते हैं।