यह शोधपत्र प्राकृतिक भाषा में व्यक्त प्रतिबंधों के अंतर्गत सुरक्षित सुदृढीकरण अधिगम करने की एक विधि प्रस्तुत करता है। मौजूदा विधियों में प्रत्येक प्रतिबंध के लिए लागत फलनों को मैन्युअल रूप से डिज़ाइन करने की आवश्यकता की सीमा होती है। इस शोधपत्र में, हम ट्रैजेक्टरी-स्तरीय पाठ्य प्रतिबंध अनुवादक (TTCT) का प्रस्ताव करते हैं, जो प्राकृतिक भाषा प्रतिबंधों का उपयोग करके स्वचालित रूप से लागत फलन उत्पन्न करता है। TTCT प्राकृतिक भाषा प्रतिबंधों को ट्रैजेक्टरी के साथ जोड़कर सीखता है, और प्रायोगिक परिणाम दर्शाते हैं कि यह मौजूदा मैन्युअल रूप से डिज़ाइन किए गए लागत फलनों की तुलना में कम उल्लंघन दर वाली नीतियाँ सीखता है। इसके अलावा, हम शून्य-शॉट स्थानांतरण क्षमता प्रदर्शित करते हैं, जिसे बदलते प्रतिबंधों वाले परिवेशों पर लागू किया जा सकता है।