사전 학습된 확산 모델을 활용한 계획은 테스트 시간 가이드 제어 문제 해결에 유망한 접근 방식이다. 표준 그래디언트 가이던스는 볼록하고 미분 가능한 보상 환경에서 최적의 성능을 보이지만, 비볼록 목표, 비 미분 가능한 제약 조건, 다중 보상 구조를 가진 실제 시나리오에서는 효과가 감소한다. TDP(Tree-guided Diffusion Planner)는 구조화된 궤적 생성을 통해 탐색과 활용의 균형을 이루는 제로샷 테스트 시간 계획 프레임워크를 제안한다. TDP는 사전 학습된 모델과 테스트 시간 보상 신호만을 사용하여 다양한 궤적 영역을 탐색하고 이 확장된 솔루션 공간에서 그래디언트 정보를 활용하여 그래디언트 가이던트의 한계를 해결한다. Maze gold-picking, 로봇 팔 블록 조작, AntMaze multi-goal 탐색과 같은 세 가지 다양한 작업에 대해 TDP를 평가했으며, 모든 작업에서 최첨단 접근 방식을 일관되게 능가하는 결과를 보였다.