본 논문은 구현된 AI를 위한 대규모 언어 모델(LLM) 기반 작업 계획 및 해당 인간 시연이 불필요한 행동, 중복된 탐색 및 논리적 오류로 인해 정책 품질을 저하시킬 수 있다는 문제를 제기한다. 이를 해결하기 위해, 판단 LLM이 행동 순서를 비판하고 계획 LLM이 수정 사항을 적용하는 반복적 검증 프레임워크를 제안한다. 이 방법은 규칙 기반 접근 방식과 달리 자연어 프롬프팅에 의존하여 무관한 행동, 모순 및 누락된 단계를 포함한 다양한 오류 유형에 대한 광범위한 일반화를 가능하게 한다. TEACh 구현 AI 데이터 세트의 수동으로 주석이 달린 행동 집합에서 제안된 프레임워크는 4개의 최첨단 LLM(GPT-4-mini, DeepSeek-R1, Gemini 2.5, LLaMA 4 Scout)에서 최대 90%의 재현율과 100%의 정밀도를 달성한다. 세련된 루프는 빠르게 수렴하며, 96.5%의 시퀀스가 최대 3번의 반복만으로 충분하며, 시간 효율성과 공간적 행동 구성을 모두 개선한다. 중요한 것은, 이 방법이 인간의 오류 복구 패턴을 유지하므로, 강력한 수정 행동에 대한 향후 연구를 지원한다는 점이다. 본 연구는 공간 계획 및 행동 개선을 위한 신뢰할 수 있는 LLM 기능으로서 계획 검증을 확립함으로써, 구현된 AI의 모방 학습을 위한 고품질 훈련 데이터에 대한 확장 가능한 경로를 제공한다.