본 논문은 대규모 언어 모델(LLM) 기반의 언어 유도 다중 로봇 시스템에서 효과적인 협업을 달성하기 위한 새로운 다중 에이전트 강화 학습(MARL) 프레임워크인 Instruction-Conditioned Coordinator (ICCO)를 제안한다. ICCO는 조정자 에이전트와 여러 지역 에이전트로 구성되며, 조정자는 언어 명령어와 환경 상태를 통합하여 작업과 일치하고 일관된 명령어(TACI)를 생성하여 작업 정렬과 행동 일관성을 보장한다. 조정자와 지역 에이전트는 작업 효율성과 명령어 준수를 조정하는 보상 함수를 최적화하도록 공동으로 훈련된다. 학습 목표에는 일관성 향상 항이 추가되어 명령어와 로봇 행동 간의 상호 정보를 극대화하여 협업을 더욱 향상시킨다. 시뮬레이션 및 실제 세계 실험을 통해 ICCO의 효과를 검증하였다.