대규모 언어 모델(LLM)은 강화 학습(RL)에서 작업을 하위 목표로 분해하여 강력한 상위 수준 계획 능력을 제공합니다. 그러나, 추상적인 계획과 실행 가능한 환경 호환 동작 간의 중요한 격차인, 계획-실행 정렬 불량으로 인해 실제 유용성이 제한됩니다. 이 정렬 불량은 두 가지 상호 관련된 제한 사항에서 발생합니다: (1) LLM은 환경 특정 지식에 대한 충분한 근거가 없어 의미상 타당하지만, 대상 환경에서 실행 불가능하거나 관련 없는 하위 목표를 자주 생성합니다. (2) 단일 LLM 계획은 생성과 자체 검증을 혼합하여 실행 중 자주 실패하는 과신하지만 신뢰할 수 없는 하위 목표를 초래합니다. 이러한 문제를 해결하기 위해, 환경 특정 하위 목표 그래프 및 구조화된 엔티티 지식을 생성, 비판, 개선을 명시적으로 분리하는 다중 LLM 계획 파이프라인과 통합하는 SGA-ACR (Subgoal Graph-Augmented Actor-Critic-Refiner) 프레임워크를 제안합니다. 하위 목표 추적기는 추가 보상을 제공하고, 계획과 동작 간의 정렬을 유지하기 위해 하위 목표 그래프를 적응적으로 업데이트하여 실행 진행 상황을 추가로 모니터링합니다. 개방형 세계 게임 "Crafter"의 22가지 다양한 작업에 대한 실험 결과는 제안된 방법의 효과를 보여줍니다.