본 논문은 강화 학습(RL)에서 기존의 정책 탐색 방법들이 과제 특징을 고려하지 않고 미리 설정된 확률 과정을 사용하는 한계를 지적하며, 대규모 언어 모델(LLM)을 활용하여 과제 특유의 적응적인 탐색 전략을 생성하는 LLM-Explorer를 제안합니다. LLM-Explorer는 RL 훈련 중 에이전트의 학습 경로를 분석하여 LLM으로 하여금 현재 정책 학습 상태를 분석하고 미래 정책 탐색을 위한 확률 분포를 생성하게 합니다. 이 확률 분포는 주기적으로 업데이트되어 특정 과제에 특화되고 학습 과정에 동적으로 적응하는 확률 과정을 도출합니다. LLM-Explorer는 DQN, DDPG, TD3 등 다양한 RL 알고리즘과 호환되며, Atari와 MuJoCo 벤치마크에서 평균 37.27%의 성능 향상을 달성했습니다.