본 논문은 복잡하고 장기적인 의사결정 과제를 해결하기 위해 고전적인 심볼릭 플래닝과 트랜스포머 기반 정책을 결합한 계층적 신경-심볼 제어 프레임워크를 제시한다. 상위 수준에서는 심볼릭 플래너가 논리적 명제를 기반으로 해석 가능한 연산자 시퀀스를 구성하여 전역적 제약 조건과 목표에 대한 체계적인 준수를 보장한다. 하위 수준에서는 각 심볼릭 연산자가 하위 목표 토큰으로 변환되어 의사결정 트랜스포머가 불확실하고 고차원적인 환경에서 미세한 행동 시퀀스를 생성하도록 조건을 설정한다. 본 논문은 심볼릭 플래너와 신경 실행 계층 모두에서 근사 오류가 어떻게 누적되는지에 대한 이론적 분석을 제공한다. 여러 개의 키, 잠긴 문 및 아이템 수집 작업이 있는 그리드 월드에서의 실험적 평가는 계층적 접근 방식이 성공률과 정책 효율성 측면에서 순수한 엔드투엔드 신경 접근 방식보다 우수함을 보여준다.