본 논문은 다중 에이전트 강화 학습(MARL) 시스템에서 효율적인 학습과 바람직한 행동을 달성하는 어려움을 해결하기 위해 대규모 언어 모델(LLM) 기반 개입을 활용하는 방법을 탐구합니다. 자연어(NL) 컨트롤러와 규칙 기반(RB) 컨트롤러 두 가지 유형의 개입을 실험하여, LLM이 다수 에이전트의 학습 경로를 형성하는 개입을 해석하고 촉진하는 방식을 조사했습니다. 실험 결과, 인간과 유사한 개입을 시뮬레이션하는 NL 컨트롤러가 RB 컨트롤러보다 더 큰 영향을 미치는 것으로 나타났으며, 초기 개입이 에이전트의 학습 효율과 성능 향상에 특히 효과적임을 확인했습니다. 두 가지 개입 유형 모두 개입이 없는 기준선보다 성능이 우수하여, LLM 기반 지도가 어려운 환경에서 MARL 학습 속도를 높이고 성능을 향상시킬 수 있는 잠재력을 보여줍니다.