Este artículo propone JARVIS, un marco de inferencia simbólico neuronal de sentido común para construir agentes conversacionales corporizados que realizan tareas del mundo real. Para superar las limitaciones de los métodos simbólicos existentes y los modelos de aprendizaje profundo de extremo a extremo, utilizamos un modelo de lenguaje a gran escala (LLM) para adquirir representaciones simbólicas para la comprensión del lenguaje y la planificación de subobjetivos, y construimos mapas semánticos a partir de observaciones visuales. El módulo simbólico realiza la planificación de subobjetivos y la generación de acciones con base en el sentido común a nivel de tarea y acción. Los resultados experimentales utilizando el conjunto de datos TEACh demuestran que JARVIS logra un rendimiento de vanguardia en tres tareas corporizadas basadas en diálogo (EDH, TfD y TATC), mejorando significativamente la tasa de éxito en la tarea EDH del 6,1% al 15,8%. Además, analizamos sistemáticamente los factores clave que afectan el rendimiento de la tarea y demostramos un rendimiento superior incluso en entornos de pequeña escala. Además, obtuvimos el primer lugar en el Alexa Prize SimBot Public Benchmark Challenge.