本文探讨了基于大规模语言模型 (LLM) 的人工智能实现任务规划及其相应的人工演示,由于不必要的操作、冗余探索和逻辑错误,可能会降低策略质量的问题。为了解决这个问题,我们提出了一个迭代验证框架,其中判断型 LLM 负责评估动作序列,而规划型 LLM 负责应用修正。与基于规则的方法不同,该方法依赖于自然语言提示,能够广泛泛化各种错误类型,包括不相关的操作、矛盾和缺失步骤。在 TEACh 人工智能实现数据集中手动注释的操作集上,该框架在四个最先进的 LLM(GPT-4-mini、DeepSeek-R1、Gemini 2.5 和 LLaMA 4 Scout)上实现了高达 90% 的召回率和 100% 的准确率。改进后的循环收敛速度很快,96.5% 的序列最多可进行三次迭代,从而提高了时间效率和空间动作组合。重要的是,该方法保留了人为错误恢复模式,为未来稳健纠正行为的研究提供支持。通过将规划验证确立为空间规划和行为改进的可靠 LLM 函数,本研究为人工智能中的模仿学习提供了一条可扩展的高质量训练数据获取途径。