강화 학습(RL) 에이전트는 희소 보상 환경에서 어려움을 겪는데, 이는 기존 탐색 전략이 효과적인 행동 시퀀스를 발견하는 데 실패하기 때문이다. 대규모 언어 모델(LLM)은 텍스트 사전 훈련을 통해 절차적 지식과 추론 능력을 갖추고 있어 RL 탐색을 안내할 수 있지만, 기존 접근 방식은 RL 정책이 LLM 제안을 따라야 하거나 이를 보상 함수에 직접 통합해야 하는 경직된 종속성을 생성한다. 본 논문에서는 LLM이 생성한 행동 권장 사항을 증강된 관찰 공간을 통해 제공하는 프레임워크를 제안한다. 이를 통해 RL 에이전트는 이 지침을 따를지 무시할지 학습할 수 있다. 본 방법은 LLM의 세계 지식과 추론 능력을 활용하면서 소프트 제약을 통해 유연성을 유지한다. 우리는 세 가지 BabyAI 환경에서 접근 방식을 평가하고 작업 난이도가 높아질수록 LLM 지침의 이점이 증가함을 보여준다. 가장 어려운 환경에서 기준선 대비 최종 성공률에서 71%의 상대적 향상을 달성했다. 이 접근 방식은 상당한 샘플 효율성 향상을 제공하여, 에이전트가 최대 9배 더 빠르게 성능 임계값에 도달하며, 기존 RL 알고리즘에 대한 수정이 필요하지 않다. 우리의 결과는 LLM 계획 능력을 활용하여 어려운 환경에서 RL 훈련을 가속화하는 효과적인 방법을 보여준다.