दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

पाठ से प्रक्षेप पथ तक: सुरक्षित सुदृढीकरण सीखने में जटिल बाधा प्रतिनिधित्व और अपघटन की खोज

Created by
  • Haebom

लेखक

पुसेन डोंग, तियानचेन झू, यू किउ, हाओयी झोउ, जियानक्सिन ली

रूपरेखा

यह शोधपत्र प्राकृतिक भाषा में व्यक्त प्रतिबंधों के अंतर्गत सुरक्षित सुदृढीकरण अधिगम करने की एक विधि प्रस्तुत करता है। मौजूदा विधियों में प्रत्येक प्रतिबंध के लिए लागत फलनों को मैन्युअल रूप से डिज़ाइन करने की आवश्यकता की सीमा होती है। इस शोधपत्र में, हम ट्रैजेक्टरी-स्तरीय पाठ्य प्रतिबंध अनुवादक (TTCT) का प्रस्ताव करते हैं, जो प्राकृतिक भाषा प्रतिबंधों का उपयोग करके स्वचालित रूप से लागत फलन उत्पन्न करता है। TTCT प्राकृतिक भाषा प्रतिबंधों को ट्रैजेक्टरी के साथ जोड़कर सीखता है, और प्रायोगिक परिणाम दर्शाते हैं कि यह मौजूदा मैन्युअल रूप से डिज़ाइन किए गए लागत फलनों की तुलना में कम उल्लंघन दर वाली नीतियाँ सीखता है। इसके अलावा, हम शून्य-शॉट स्थानांतरण क्षमता प्रदर्शित करते हैं, जिसे बदलते प्रतिबंधों वाले परिवेशों पर लागू किया जा सकता है।

Takeaways, Limitations

Takeaways:
हम प्राकृतिक भाषा में बाधाओं को प्रभावी ढंग से समझने और सुरक्षित सुदृढीकरण सीखने वाले एजेंटों को प्रशिक्षित करने के लिए एक नई विधि प्रस्तुत करते हैं।
सीखना केवल प्राकृतिक भाषा की बाध्यताओं के साथ ही संभव है, लागत फ़ंक्शन को मैन्युअल रूप से डिज़ाइन करने की आवश्यकता नहीं है।
शून्य-शॉट स्थानांतरण क्षमता के माध्यम से विभिन्न वातावरणों में प्रयोज्यता का प्रदर्शन करना।
मौजूदा तरीकों की तुलना में उल्लंघन की दर कम करना।
Limitations:
टीटीसीटी के सामान्यीकरण प्रदर्शन पर आगे अनुसंधान की आवश्यकता है।
जटिल या अस्पष्ट प्राकृतिक भाषा बाधाओं को संभालने की क्षमता का मूल्यांकन करने की आवश्यकता है।
वास्तविक दुनिया के अनुप्रयोग के लिए अतिरिक्त सत्यापन की आवश्यकता है।
👍