본 논문은 강화학습(RL)에서 효과적인 에이전트를 훈련하기 위한 모델 앙상블 기법을 제시합니다. 기존의 앙상블 방법들은 과업에 대한 의미론적 이해가 부족하여 적응성과 효율성이 떨어지는 한계가 있습니다. 이를 해결하기 위해, 본 논문에서는 대규모 언어 모델(LLM)을 활용하여 과업 특징에 따른 상황 인식을 통해 에이전트를 동적으로 선택하는 새로운 앙상블 방법인 LLM-Ens를 제안합니다. LLM은 주어진 과업의 상태를 다양한 상황으로 분류하고, 각 에이전트의 강점과 약점을 분석하여 상황에 맞는 최적의 에이전트를 선택합니다. Atari 벤치마크 실험 결과, LLM-Ens는 기존 방법들보다 최대 20.9% 향상된 성능을 보였습니다.