목표 지향 대화 과제에서 제한된 턴 내에 주어진 목표를 달성하는 것이 주요 과제이다. 기존 접근 방식은 인간 경험에 의존하는 프롬프트 엔지니어링이나, 새로운 대화 시나리오에 적응하기 어렵고 훈련 비용이 많이 드는 정책 네트워크와 사전 훈련된 정책 모델을 통합한다. 본 논문에서는 대규모 언어 모델(LLM)을 활용하여 사용자와 시스템의 행동을 동시에 시뮬레이션함으로써 특정 모델 훈련을 완전히 피하는 새로운 대화 정책 계획 방법인 NRPA-GD(Nested Rollout Policy Adaptation for Goal-oriented Dialogue)를 제안한다. NRPA-GD는 대화 궤적에 대한 완전한 평가 메커니즘을 구축하고, 대화 과정에서 정책을 동적으로 조정하기 위해 중첩된 몬테카를로 시뮬레이션 및 정책 자체 적응의 최적화 프레임워크를 사용한다. 4개의 목표 지향 대화 데이터 세트에 대한 실험 결과는 NRPA-GD가 기존 프롬프트 엔지니어링 및 특정 사전 훈련된 모델 기반 방법을 능가함을 보여준다. 특히, NRPA-GD는 0.60억 개의 파라미터를 가진 LLM으로 ChatGPT 및 사전 훈련된 정책 모델을 능가한다. 이 접근 방식은 실용적인 계획 작업을 해결하기 위해 LLM에서 계획 방법을 사용하는 것의 장점과 참신함을 보여준다.