दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

शोर-आधारित पुरस्कार-संशोधित शिक्षण

Created by
  • Haebom

लेखक

हाँ हम गार्सिया फर्नांडीज़ , नासिर अहमद, मार्सेल वैन गेरवेन हैं

रूपरेखा

यह शोधपत्र एक नवीन शोर-आधारित अधिगम नियम प्रस्तुत करता है जो जैविक तंत्रिका तंत्रों की क्रियाविधि का अनुकरण करता है, जो विलंबित पुरस्कारों से कुशलतापूर्वक सीखते हैं, और संसाधन-सीमित वातावरणों या अविभेदनीय घटकों वाली प्रणालियों में भी लागू होता है। पारंपरिक पुरस्कार-विनियमित हेब अधिगम (RMHL) की सीमाओं को दूर करने के लिए, जिसमें समय विलंब और पदानुक्रमित प्रसंस्करण शामिल है, हम एक एल्गोरिथ्म प्रस्तावित करते हैं जो पुरस्कार पूर्वानुमान त्रुटि को एक अनुकूलन उद्देश्य के रूप में उपयोग करता है और पूर्वव्यापी क्रेडिट असाइनमेंट को सक्षम करने के लिए एक पात्रता ट्रेस को शामिल करता है। यह विधि केवल स्थानीय जानकारी का उपयोग करती है और प्रयोगात्मक रूप से प्रदर्शित करती है कि यह RMHL से बेहतर प्रदर्शन करती है और सुदृढीकरण अधिगम कार्यों (तत्काल और विलंबित पुरस्कार दोनों) में बैकप्रोपेगेशन (BP) के बराबर प्रदर्शन प्राप्त करती है। यद्यपि इसकी अभिसरण गति धीमी है, यह कम-शक्ति अनुकूली प्रणालियों पर प्रयोज्यता प्रदर्शित करती है जहाँ ऊर्जा दक्षता और जैविक संभाव्यता महत्वपूर्ण हैं। इसके अलावा, यह उन क्रियाविधिओं की अंतर्दृष्टि प्रदान करती है जिनके द्वारा डोपामाइन-जैसे संकेत और सिनैप्टिक स्टोचैस्टिसिटी जैविक नेटवर्क में अधिगम में योगदान करते हैं।

Takeaways, Limitations

Takeaways:
एक शोर-आधारित शिक्षण नियम प्रस्तुत किया गया है जो विलंबित पुरस्कारों के लिए भी प्रभावी है।
संसाधन-सीमित वातावरण और गैर-विभेदनीय प्रणालियों में प्रयोज्यता का प्रमाण
जैविक तंत्रिका परिपथों में सीखने की क्रियाविधि की समझ को आगे बढ़ाना
कम-शक्ति अनुकूली प्रणालियों के लिए संभावित अनुप्रयोगों का सुझाव देता है, विशेष रूप से उन प्रणालियों के लिए जहां ऊर्जा दक्षता और जैविक संभाव्यता महत्वपूर्ण हैं।
डोपामाइन-जैसे सिग्नलिंग और सिनैप्टिक स्टोचैस्टिसिटी की भूमिका के बारे में जानकारी प्रदान करता है।
Limitations:
प्रयोग केवल सरल संरचना वाले नेटवर्क पर ही किए गए।
बैकप्रोपेगेशन-आधारित सीखने की तुलना में धीमा अभिसरण
जटिल वास्तविक दुनिया की समस्याओं पर इसकी प्रयोज्यता के लिए आगे अध्ययन की आवश्यकता है।
👍