[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

पशु व्यवहारों के लक्षण वर्णन के लिए स्विचिंग रिवॉर्ड्स और इतिहास निर्भरता के साथ व्युत्क्रम सुदृढीकरण सीखना

Created by
  • Haebom

लेखक

जिंगयांग के, फ़ेयांग वू, जियि वांग, जेफरी मार्कोविट्ज़, अंकी वू

रूपरेखा

यह शोधपत्र मौजूदा तंत्रिका विज्ञान निर्णय-निर्माण अनुसंधान की सीमाओं की ओर इशारा करता है, जो सरलीकृत व्यवहारिक कार्यों और स्पष्ट पुरस्कारों पर केंद्रित है, और केवल जानवरों के दोहरावदार और स्थिर व्यवहारों से संबंधित है। प्राकृतिक वातावरण में, जानवर अक्सर अप्रत्यक्ष आंतरिक प्रेरणाओं के कारण लंबे समय तक जटिल व्यवहार प्रदर्शित करते हैं। इसे समझने के लिए समय-परिवर्तनशील व्युत्क्रम सुदृढीकरण अधिगम (IRL) का उपयोग किया गया है, लेकिन यह इस बात पर विचार करने में विफल रहता है कि जानवरों के निर्णय न केवल वर्तमान स्थिति पर, बल्कि पिछले इतिहास पर भी आधारित होते हैं। इस शोधपत्र में, हम SWIRL (SWitching IRL) प्रस्तुत करते हैं, जो एक नया ढाँचा है जो समय-परिवर्तनशील और अतीत-निर्भर पुरस्कार कार्यों को एकीकृत करता है। SWIRL दीर्घकालिक क्रिया अनुक्रमों को अल्पकालिक निर्णय प्रक्रियाओं के बीच संक्रमण के रूप में मॉडल करता है, जिनमें से प्रत्येक एक अद्वितीय पुरस्कार कार्य द्वारा नियंत्रित होता है, जिससे यह पता चलता है कि पिछले निर्णय और पर्यावरणीय संदर्भ व्यवहार को कैसे आकार देते हैं। हम SWIRL को नकली और वास्तविक पशु व्यवहार डेटासेट पर लागू करते हैं और प्रदर्शित करते हैं कि यह मात्रात्मक और गुणात्मक रूप से अतीत पर निर्भरता रहित मॉडलों से बेहतर प्रदर्शन करता है। यह पहला IRL मॉडल है जो अतीत पर निर्भर नीतियों और पुरस्कारों को एकीकृत करता है, तथा जटिल और प्राकृतिक पशु निर्णय लेने की हमारी समझ को आगे बढ़ाता है।

Takeaways, Limitations

Takeaways:
हम SWIRL प्रस्तुत करते हैं, जो एक नवीन IRL फ्रेमवर्क है, जो समय-भिन्न और अतीत-निर्भर पुरस्कार कार्यों को एकीकृत करता है, जिससे जटिल और प्राकृतिक पशु निर्णय लेने का अधिक सटीक मॉडलिंग संभव हो पाता है।
वर्तमान निर्णय लेने पर पिछले व्यवहार और पर्यावरणीय संदर्भ के प्रभाव का प्रभावी ढंग से विश्लेषण करें।
मौजूदा IRL मॉडल की सीमाओं पर काबू पाना और प्राकृतिक व्यवहार संबंधी डेटा के विश्लेषण में नई संभावनाएं प्रस्तुत करना।
वास्तविक पशु व्यवहार डेटा पर अनुप्रयोग द्वारा मॉडल का सत्यापन।
Limitations:
पैरामीटर सेटिंग्स और SWIRL मॉडल के अनुकूलन के विस्तृत स्पष्टीकरण का अभाव।
विभिन्न प्रकार के पशु व्यवहार संबंधी आंकड़ों की सामान्यता निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है।
मॉडल की कम्प्यूटेशनल जटिलता और मापनीयता की समीक्षा की जानी चाहिए।
आंतरिक प्रेरणा को सटीक रूप से परिभाषित करने और मापने में कठिनाइयाँ।
👍