Cet article propose JARVIS, un cadre d'inférence de sens commun symbolique neuronal pour la construction d'agents conversationnels incarnés exécutant des tâches du monde réel. Afin de surmonter les limites des méthodes symboliques existantes et des modèles d'apprentissage profond de bout en bout, nous utilisons un modèle de langage à grande échelle (LLM) pour acquérir des représentations symboliques pour la compréhension du langage et la planification des sous-objectifs, et construisons des cartes sémantiques à partir d'observations visuelles. Le module symbolique effectue ensuite la planification des sous-objectifs et la génération d'actions en fonction du sens commun au niveau des tâches et des actions. Les résultats expérimentaux obtenus à partir du jeu de données TEACh démontrent que JARVIS atteint des performances de pointe sur trois tâches incarnées basées sur le dialogue (EDH, TfD et TATC), améliorant significativement le taux de réussite de la tâche EDH de 6,1 % à 15,8 %. De plus, nous analysons systématiquement les facteurs clés affectant la performance des tâches et démontrons des performances supérieures, même dans des contextes de petite envergure. Nous avons également remporté la première place au concours public de référence Alexa Prize SimBot.