Cet article propose un système permettant aux agents intelligents d'interagir de manière autonome avec leur environnement afin d'effectuer des tâches routinières en suivant des instructions de niveau humain. Ce système requiert une compréhension fondamentale du monde pour interpréter avec précision les instructions de niveau humain, ainsi que des compétences précises en mouvement et en interaction de bas niveau pour exécuter les actions dérivées. Nous présentons le premier système complet synthétisant des interactions homme-objet physiquement plausibles et à long terme pour la manipulation d'objets dans des environnements contextuels. En exploitant un modèle de langage à grande échelle (LLM), nous interprétons les instructions d'entrée en plans d'exécution détaillés. Contrairement aux travaux précédents, nous générons des interactions doigt-objet qui se coordonnent parfaitement avec les mouvements du corps entier. De plus, nous entraînons une politique qui suit les mouvements générés à partir de simulations physiques grâce à l'apprentissage par renforcement (RL) afin de garantir leur plausibilité physique. Les résultats expérimentaux démontrent l'efficacité du système à synthétiser des interactions réalistes avec divers objets dans des environnements complexes, soulignant son potentiel d'applications pratiques.