본 논문은 구현된 AI를 위한 대규모 언어 모델(LLM) 기반 작업 계획 및 해당 인간 시연이 불필요한 행동, 중복된 탐색 및 논리적 오류로 인해 정책 품질을 저하시킬 수 있다는 문제를 제기합니다. 이를 해결하기 위해, 판단 LLM이 행동 순서를 비판하고 계획 LLM이 수정 사항을 적용하는 반복적 검증 프레임워크를 제안합니다. 이는 점진적으로 더 깨끗하고 공간적으로 일관성 있는 궤적을 생성합니다. 규칙 기반 접근 방식과 달리, 자연어 프롬프팅에 의존하여 무관한 행동, 모순 및 누락된 단계를 포함한 다양한 오류 유형에 대한 광범위한 일반화를 가능하게 합니다. TEACh 구현 AI 데이터 세트의 수동으로 주석이 달린 행동 세트에서, 제안된 프레임워크는 4개의 최첨단 LLM(GPT-4-mini, DeepSeek-R1, Gemini 2.5, LLaMA 4 Scout)에 대해 최대 90%의 재현율과 100%의 정밀도를 달성합니다. 세련화 루프는 빠르게 수렴하며, 96.5%의 시퀀스가 최대 3회의 반복만 필요하며, 시간 효율성과 공간적 행동 구성을 모두 개선합니다. 중요한 것은, 이 방법이 인간의 오류 복구 패턴을 유지하면서 붕괴시키지 않아 강력한 수정 동작에 대한 향후 연구를 지원한다는 점입니다. 공간 계획 및 행동 개선을 위한 신뢰할 수 있는 LLM 기능으로 계획 검증을 확립함으로써, 구현된 AI에서 모방 학습을 위한 고품질 교육 데이터를 확장 가능한 경로를 제공합니다.