Bài báo này đề cập đến vấn đề lập kế hoạch tác vụ dựa trên mô hình ngôn ngữ quy mô lớn (LLM) cho AI đã triển khai và trình diễn con người tương ứng có thể làm giảm chất lượng chính sách do các hành động không cần thiết, khám phá dư thừa và lỗi logic. Để giải quyết vấn đề này, chúng tôi đề xuất một khuôn khổ xác thực lặp lại, trong đó LLM phán đoán phê bình các chuỗi hành động và LLM lập kế hoạch áp dụng các hiệu chỉnh. Điều này tạo ra các quỹ đạo ngày càng sạch hơn và nhất quán về mặt không gian. Không giống như các phương pháp dựa trên quy tắc, nó dựa trên lời nhắc ngôn ngữ tự nhiên, cho phép khái quát hóa rộng rãi trên nhiều loại lỗi, bao gồm các hành động không liên quan, mâu thuẫn và các bước bị thiếu. Trên một tập hành động được chú thích thủ công từ bộ dữ liệu AI triển khai TEACh, khuôn khổ đề xuất đạt được độ thu hồi lên đến 90% và độ chính xác 100% so với bốn LLM tiên tiến (GPT-4-mini, DeepSeek-R1, Gemini 2.5 và LLaMA 4 Scout). Vòng lặp tinh chỉnh hội tụ nhanh chóng, với 96,5% chuỗi chỉ cần ba lần lặp, cải thiện cả hiệu quả thời gian và thành phần hành động không gian. Quan trọng hơn, phương pháp này hỗ trợ nghiên cứu trong tương lai về các hành vi điều chỉnh mạnh mẽ bằng cách bảo tồn các mô hình phục hồi lỗi của con người mà không làm gián đoạn chúng. Bằng cách thiết lập xác thực kế hoạch như một hàm LLM đáng tin cậy cho việc lập kế hoạch không gian và cải thiện hành vi, nó cung cấp một lộ trình có thể mở rộng để có được dữ liệu đào tạo chất lượng cao cho việc học mô phỏng trong AI đã triển khai.