यह शोधपत्र बुद्धिमान एजेंटों के लिए एक ऐसी प्रणाली का प्रस्ताव करता है जो मानव-स्तरीय निर्देशों का पालन करते हुए नियमित कार्यों को करने के लिए अपने परिवेश के साथ स्वायत्त रूप से अंतःक्रिया करते हैं। इस प्रणाली को मानव-स्तरीय निर्देशों की सटीक व्याख्या करने के लिए दुनिया की मूलभूत समझ के साथ-साथ व्युत्पन्न क्रियाओं को निष्पादित करने के लिए सटीक निम्न-स्तरीय गति और अंतःक्रिया कौशल की आवश्यकता होती है। हम पहली पूर्ण प्रणाली प्रस्तुत करते हैं जो प्रासंगिक परिवेशों में वस्तु हेरफेर के लिए भौतिक रूप से प्रशंसनीय, दीर्घकालिक मानव-वस्तु अंतःक्रियाओं का संश्लेषण करती है। एक बड़े पैमाने के भाषा मॉडल (LLM) का लाभ उठाते हुए, हम इनपुट निर्देशों की व्याख्या विस्तृत निष्पादन योजनाओं में करते हैं। पिछले कार्यों के विपरीत, हम उंगली-वस्तु अंतःक्रियाएँ उत्पन्न करते हैं जो पूरे शरीर की गतिविधियों के साथ सहजता से समन्वयित होती हैं। इसके अलावा, हम एक ऐसी नीति का प्रशिक्षण देते हैं जो गतियों की भौतिक प्रशंसनीयता सुनिश्चित करने के लिए सुदृढीकरण अधिगम (RL) का उपयोग करके भौतिकी सिमुलेशन से उत्पन्न गतियों को ट्रैक करती है। प्रायोगिक परिणाम जटिल परिवेशों में विविध वस्तुओं के साथ यथार्थवादी अंतःक्रियाओं के संश्लेषण में प्रणाली की प्रभावशीलता को प्रदर्शित करते हैं, और व्यावहारिक अनुप्रयोगों के लिए इसकी क्षमता को उजागर करते हैं।