Cet article aborde le problème selon lequel la planification des tâches basée sur un modèle de langage à grande échelle (LLM) pour l'IA implémentée et sa démonstration humaine correspondante peuvent dégrader la qualité des politiques en raison d'actions inutiles, d'explorations redondantes et d'erreurs logiques. Pour y remédier, nous proposons un cadre de validation itératif dans lequel le LLM de jugement critique les séquences d'actions et le LLM de planification applique les corrections. Cela produit des trajectoires progressivement plus propres et spatialement cohérentes. Contrairement aux approches basées sur des règles, il s'appuie sur des invites en langage naturel, permettant une large généralisation sur divers types d'erreurs, notamment les actions non pertinentes, les contradictions et les étapes manquantes. Sur un ensemble d'actions annotées manuellement à partir du jeu de données d'IA d'implémentation TEACh, le cadre proposé atteint jusqu'à 90 % de rappel et 100 % de précision par rapport à quatre LLM de pointe (GPT-4-mini, DeepSeek-R1, Gemini 2.5 et LLaMA 4 Scout). La boucle de raffinement converge rapidement, 96,5 % des séquences ne nécessitant que trois itérations, améliorant ainsi à la fois l'efficacité temporelle et la composition spatiale des actions. Il est important de noter que cette méthode soutient les recherches futures sur les comportements de correction robustes en préservant les schémas de récupération après erreur humaine sans les perturber. En faisant de la validation des plans une fonction LLM fiable pour la planification spatiale et l'amélioration des comportements, elle offre une voie évolutive vers des données d'apprentissage de haute qualité pour l'apprentissage par imitation dans l'IA implémentée.