[공지사항]을 빙자한 안부와 근황 
Show more

दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

संस्थापक: खुले अंत वाले सन्निहित निर्णय लेने के लिए विश्व मॉडल में आधारभूत मॉडल का निर्माण

Created by
  • Haebom

लेखक

युसेन वांग, रुई यू, शेंगहुआ वान, ले गण, डी-चुआन ज़ान

रूपरेखा

FOUNDER एक ऐसा ढाँचा है जो फाउंडेशन मॉडल (FM) के सामान्यीकृत ज्ञान को विश्व मॉडल (WM) की गतिशील मॉडलिंग क्षमताओं के साथ एकीकृत करता है ताकि पुरस्कार-मुक्त वातावरण में मुक्त-अंत कार्य समाधान संभव हो सके। यह एक ऐसा फ़ंक्शन सीखता है जो FM निरूपण को WM अवस्था स्थान पर मैप करता है ताकि बाहरी प्रेक्षणों से विश्व सिम्युलेटर में एजेंट की भौतिक अवस्था का अनुमान लगाया जा सके। यह मैपिंग हमें क्रिया सीखने के दौरान कल्पना के माध्यम से एक लक्ष्य-अनुकूलन नीति सीखने की अनुमति देती है, और मैप की गई क्रिया को लक्ष्य अवस्था के रूप में उपयोग करती है। लक्ष्य अवस्था से अनुमानित अस्थायी दूरी का उपयोग सूचना-समृद्ध पुरस्कार संकेत के रूप में किया जाता है। FOUNDER विभिन्न प्रकार के बहु-कार्य ऑफ़लाइन विज़ुअल नियंत्रण बेंचमार्क पर अच्छा प्रदर्शन करता है, और टेक्स्ट या वीडियो में दिए गए कार्यों के गहन अर्थ को समझने में उत्कृष्ट है, विशेष रूप से जटिल प्रेक्षणों या डोमेन अंतरालों वाले परिदृश्यों में जहाँ मौजूदा विधियाँ संघर्ष करती हैं। सीखे गए पुरस्कार फलन की वास्तविक पुरस्कार के साथ संगति का भी प्रयोगात्मक रूप से सत्यापन किया गया है। परियोजना की वेबसाइट https://sites.google.com/view/founder-rl है ।

Takeaways, Limitations

Takeaways:
आधार मॉडल और विश्व मॉडल को एकीकृत करके बिना किसी क्षतिपूर्ति के क्रियान्वित किए गए वातावरण में खुली समस्याओं को सुलझाने की संभावना का सुझाव देना।
यह जटिल अवलोकनों या डोमेन अंतराल वाले परिदृश्यों में अच्छा प्रदर्शन करता है।
पाठ या वीडियो में निर्दिष्ट कार्य के गहरे अर्थ को प्रभावी ढंग से प्रस्तुत करें।
प्रयोगात्मक रूप से सीखे गए पुरस्कार फ़ंक्शन की स्थिरता का सत्यापन करना।
Limitations:
प्रस्तुत बेंचमार्क से परे अन्य वातावरणों या कार्यों के लिए सामान्यीकरण प्रदर्शन का सत्यापन आवश्यक है।
सीखे गए मानचित्रण फ़ंक्शन की व्याख्या और विश्वसनीयता पर आगे अनुसंधान की आवश्यकता है।
विश्व मॉडल की सटीकता पर उच्च स्तर की निर्भरता हो सकती है। विश्व मॉडल में त्रुटियाँ एजेंट के व्यवहार को सीधे प्रभावित कर सकती हैं।
👍