本論文は、人間レベルの指示に従って日常的な作業を実行するために環境と自律的に対話するインテリジェントエージェントのためのシステムを提案する。このシステムは、人間レベルの指示を正確に解釈するための世界の基本的な理解と、導出された行動を実行するための正確な低レベルの動きと相互作用技術を必要とします。本論文は、文脈環境での物体操作のための物理的に妥当で長期のヒト - 物体相互作用を合成する最初の完全なシステムを提案する。大規模言語モデル(LLM)を活用して入力指示を詳細な実行計画として解釈し、以前の研究とは異なり、指と物体の相互作用を全身の動きと滑らかに調整して生成することができる。また、強化学習(RL)を介して物理シミュレーションで生成されたアクションを追跡するポリシーをトレーニングして、アクションの物理的妥当性を保証します。実験結果は,複雑な環境における様々な物体との現実的な相互作用を合成するシステムの効果を示し,実際の応用性を強調した。