दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

बीसीआर-डीआरएल: मानव-एआई समन्वय में गहन सुदृढीकरण सीखने के लिए व्यवहार- और संदर्भ-जागरूक पुरस्कार

Created by
  • Haebom

लेखक

शिन हाओ, बहरेह नकिसा, मोहम्मद नईम रस्तगू, गौयांग पैंग

रूपरेखा

यह शोधपत्र मानव-एआई सहयोग (HAIC) में गहन सुदृढीकरण अधिगम (DRL) की दो प्रमुख चुनौतियों: विरल पुरस्कार और अप्रत्याशित मानवीय व्यवहार, के समाधान हेतु व्यवहारिक और संदर्भ-जागरूक पुरस्कार (BCR) का प्रस्ताव करता है। BCR में एक दोहरी आंतरिक पुरस्कार प्रणाली शामिल है जिसमें AI स्व-प्रेरक आंतरिक पुरस्कार और मानव-प्रेरक आंतरिक पुरस्कार शामिल हैं, साथ ही एक संदर्भ-जागरूक भारांकन तंत्र भी है जो मानव भागीदारों के साथ सहयोग को बेहतर बनाने के लिए प्रासंगिक जानकारी का लाभ उठाता है। एक अति-तैयार वातावरण में सिमुलेशन परिणाम दर्शाते हैं कि प्रस्तावित विधि संचयी विरल पुरस्कारों को लगभग 20% तक बढ़ा देती है और अत्याधुनिक आधार रेखाओं की तुलना में नमूनाकरण दक्षता में लगभग 38% सुधार करती है।

Takeaways, Limitations

Takeaways:
दुर्लभ पुरस्कारों और अप्रत्याशित मानवीय व्यवहार की समस्याओं के समाधान के लिए एक नवीन बीसीआर ढांचा प्रस्तुत किया गया है।
दोहरी आंतरिक पुरस्कार प्रणाली के माध्यम से उन्नत अन्वेषण और संदर्भ-जागरूक भारांकन तंत्र के माध्यम से बेहतर उपयोग।
अत्यधिक पकाए गए वातावरण में किए गए प्रयोगों से संचयी पुरस्कार और नमूना दक्षता में सुधार का अनुभवजन्य रूप से प्रदर्शन होता है।
Limitations:
ये प्रयोगात्मक परिणाम केवल अति-पकाए गए वातावरण तक ही सीमित हैं। अन्य HAIC वातावरणों पर इसके सामान्यीकरण का निर्धारण करने के लिए और अधिक शोध की आवश्यकता है।
मानव व्यवहार मॉडलिंग की सटीकता पर निर्भरता। अधिक परिष्कृत मानव व्यवहार मॉडलिंग की आवश्यकता हो सकती है।
प्रासंगिक जानकारी के चयन और भारांकन तंत्र के अनुकूलन पर आगे अनुसंधान की आवश्यकता है।
👍