Este artículo propone un sistema para agentes inteligentes que interactúan de forma autónoma con su entorno para realizar tareas rutinarias siguiendo instrucciones de nivel humano. Este sistema requiere una comprensión fundamental del mundo para interpretar con precisión las instrucciones de nivel humano, así como habilidades precisas de movimiento e interacción de bajo nivel para ejecutar las acciones derivadas. Presentamos el primer sistema completo que sintetiza interacciones humano-objeto físicamente plausibles y a largo plazo para la manipulación de objetos en entornos contextuales. Aprovechando un modelo de lenguaje a gran escala (LLM), interpretamos las instrucciones de entrada en planes de ejecución detallados. A diferencia de trabajos anteriores, generamos interacciones dedo-objeto que se coordinan a la perfección con los movimientos de cuerpo completo. Además, entrenamos una política que rastrea los movimientos generados a partir de simulaciones físicas mediante aprendizaje por refuerzo (RL) para garantizar la plausibilidad física de los movimientos. Los resultados experimentales demuestran la eficacia del sistema para sintetizar interacciones realistas con diversos objetos en entornos complejos, lo que destaca su potencial para aplicaciones prácticas.