यह शोधपत्र एक एजेंट को नियंत्रित करने की एक विधि प्रस्तावित करता है, जिसे एक बड़े पैमाने के भाषा मॉडल (LLM) का उपयोग करके कार्यान्वित किया जाता है जो निरंतर अवलोकन सदिशों को निरंतर क्रिया सदिशों पर सीधे मैप करता है। LLM एजेंट, परिवेश और लक्ष्य के पाठ्य विवरणों के आधार पर एक नियंत्रण रणनीति तैयार करता है, और प्रदर्शन प्रतिक्रिया और संवेदी-गतिशील डेटा का उपयोग करके रणनीति को बार-बार परिष्कृत करता है। इस विधि की प्रभावशीलता जिम्नेजियम लाइब्रेरी के क्लासिकल नियंत्रण कार्यों और म्यूजोको लाइब्रेरी के उल्टे पेंडुलम कार्य पर प्रमाणित है, और इसकी प्रभावशीलता GPT-oss:120b और Qwen2.5:72b जैसे अपेक्षाकृत छोटे मॉडलों पर भी प्रदर्शित होती है। यह विधि अनुमान के माध्यम से प्राप्त प्रतीकात्मक ज्ञान को एजेंट द्वारा परिवेश के साथ अंतःक्रिया करते समय एकत्रित उप-प्रतीकात्मक संवेदी-गतिशील डेटा के साथ एकीकृत करके इष्टतम या लगभग इष्टतम समाधान सफलतापूर्वक खोजती है।