GLIDER (Gounding Language Models as Efficient Decision-Making Agents via Offline Hierarchical Reinforcement Learning)는 대규모 언어 모델(LLM)의 장기적 의사결정 능력 향상을 위한 혁신적인 프레임워크입니다. 희소 보상 시나리오에서 LLM이 장기적 의사결정 과제에서 어려움을 겪는 점에 착안하여, 분할 정복 원리를 활용한 계층적 강화 학습 방식을 제안합니다. 고수준 정책이 학습하고 지시하는 추상적이고 단계적인 계획으로 저수준 제어기를 감독하는 방식을 통해 복잡한 문제를 일련의 일관된 사고 과정 추론 하위 작업으로 분해하여, 장기 과제에 대한 탐색과 학습을 크게 향상시키는 유연한 시간적 추상화를 제공합니다. 또한, 과제에 구애받지 않는 저수준 기술의 강력한 전이성 덕분에 비정상적인 환경에 대한 빠른 온라인 적응을 가능하게 합니다. ScienceWorld와 ALFWorld 벤치마크 실험 결과, GLIDER는 성능 향상과 일반화 능력 향상을 보여줍니다.