Trong bài báo này, chúng tôi đề xuất một khuôn khổ học tăng cường đa tác nhân (MARL) mới, Điều phối viên có điều kiện hướng dẫn (ICCO), để cộng tác hiệu quả trong các hệ thống nhiều robot được hướng dẫn bằng ngôn ngữ sử dụng các mô hình ngôn ngữ quy mô lớn (LLM). ICCO bao gồm một tác nhân điều phối và nhiều tác nhân cục bộ. Điều phối viên tích hợp các trạng thái môi trường và các lệnh ngôn ngữ để tạo ra các lệnh phù hợp với nhiệm vụ và nhất quán (TACI) nhằm đảm bảo sự phù hợp với nhiệm vụ và tính nhất quán của hành động. Điều phối viên và các tác nhân cục bộ được đào tạo chung để tối ưu hóa hàm phần thưởng cân bằng giữa hiệu quả nhiệm vụ và việc tuân thủ lệnh. Một thuật ngữ tăng cường tính nhất quán được thêm vào mục tiêu học tập để tăng cường hơn nữa sự cộng tác bằng cách tối đa hóa thông tin chung giữa các lệnh và hành động của robot. Hiệu quả của ICCO được xác minh thông qua các mô phỏng và thử nghiệm thực tế.