본 논문은 다중 에이전트 강화 학습(MARL)에서 중요한 과제인 신용 할당 문제를 해결하기 위해 대규모 언어 모델(LLM)을 활용하는 새로운 알고리즘 QLLM을 제안합니다. QLLM은 TFCAF(Credit Allocation Functions)의 개념을 도입하여 신용 할당 과정을 직접적이고 표현력 있는 비선형 함수로 나타냅니다. 또한, LLM이 실행 가능한 코드를 생성, 검증 및 개선하도록 돕는 맞춤형 coder-evaluator 프레임워크를 사용하여 환각 및 얕은 추론 문제를 완화합니다. 다양한 MARL 벤치마크에서 기존의 최첨단 기법보다 우수한 성능을 보이며, 혼합 네트워크를 사용하는 다양한 MARL 알고리즘과 호환됩니다.