Cet article aborde le manque de données d'évaluation évolutives et fiables pour améliorer les capacités de planification et d'inférence des modèles de langage à grande échelle (MLL). Pour y parvenir, nous sélectionnons un domaine approprié, générons automatiquement des workflows et présentons NL2Flow, un système entièrement automatisé de génération de problèmes de planification utilisant le langage naturel, des représentations intermédiaires structurées et le PDDL formel. NL2Flow génère un ensemble de données de 2 296 problèmes de faible difficulté et évalue plusieurs LLM open source, optimisés par des directives, sans optimisation spécifique à la tâche ni modification d'architecture. Les résultats de l'évaluation montrent que le modèle le plus performant atteint un taux de réussite de 86 % pour la génération de plans valides et de 69 % pour la génération de plans optimaux pour les problèmes dont les plans sont réalisables. L'analyse de régression démontre que l'impact des caractéristiques du problème varie selon le modèle et la conception de l'invite. De plus, nous étudions le potentiel de LLM comme convertisseur langage naturel-JSON pour les définitions de workflows et évaluons ses performances de traduction sur les descriptions de workflows en langage naturel afin de faciliter l'intégration avec les outils de calcul symbolique et les planificateurs symboliques ultérieurs. La conversion du langage naturel en représentation JSON du problème de workflow a donné des taux de réussite inférieurs à la génération directe d'un plan, ce qui suggère qu'une décomposition inutile de la tâche d'inférence peut dégrader les performances et met en évidence les avantages des modèles capables d'inférer directement du langage naturel aux actions. À mesure que l'inférence LLM s'adapte à des problèmes de plus en plus complexes, il est crucial de comprendre l'évolution des goulots d'étranglement et des sources d'erreur au sein de ces systèmes.