Dans cet article, nous proposons une architecture acteur-critique modulaire composée d'un acteur LLM et d'un critique LLM basé sur la logique temporelle linéaire (LTLCrit). Cette architecture vise à surmonter les limitations des modèles de langage à grande échelle (LLM), dont la sécurité et l'efficacité sont faibles en raison de l'accumulation d'erreurs lors des tâches de planification à long terme. L'acteur LLM sélectionne des actions de haut niveau grâce à des observations en langage naturel, et LTLCrit analyse l'ensemble du chemin pour proposer de nouvelles contraintes LTL empêchant toute action future dangereuse ou inefficace. L'architecture prend en charge à la fois des contraintes de sécurité fixes spécifiées manuellement et des contraintes souples d'apprentissage adaptatif qui améliorent l'efficacité à long terme, et est indépendante du modèle. Nous démontrons la capacité de prise de décision sûre et généralisable du LLM avec une supervision mutuelle basée sur la logique, en atteignant un taux d'achèvement de 100 % et une efficacité améliorée par rapport au planificateur LLM existant sur le benchmark d'extraction de diamants Minecraft.