Bài báo này đề xuất JARVIS, một khuôn khổ suy luận biểu tượng thần kinh dựa trên cảm giác chung để xây dựng các tác nhân thể hiện hội thoại thực hiện các nhiệm vụ trong thế giới thực. Để khắc phục những hạn chế của các phương pháp biểu tượng hiện có và các mô hình học sâu đầu cuối, chúng tôi sử dụng một mô hình ngôn ngữ quy mô lớn (LLM) để thu thập các biểu diễn biểu tượng cho việc hiểu ngôn ngữ và lập kế hoạch mục tiêu phụ, đồng thời xây dựng các bản đồ ngữ nghĩa từ các quan sát trực quan. Sau đó, mô-đun biểu tượng thực hiện lập kế hoạch mục tiêu phụ và tạo hành động dựa trên cảm giác chung ở cấp độ nhiệm vụ và hành động. Kết quả thử nghiệm sử dụng bộ dữ liệu TEACh chứng minh rằng JARVIS đạt được hiệu suất tiên tiến trên ba nhiệm vụ thể hiện dựa trên hội thoại (EDH, TfD và TATC), cải thiện đáng kể tỷ lệ thành công trong nhiệm vụ EDH từ 6,1% lên 15,8%. Hơn nữa, chúng tôi phân tích một cách có hệ thống các yếu tố chính ảnh hưởng đến hiệu suất nhiệm vụ và chứng minh hiệu suất vượt trội ngay cả trong các cài đặt nhỏ. Hơn nữa, chúng tôi đã đạt giải nhất trong Thử thách chuẩn mực công khai Alexa Prize SimBot.