Afin de pallier le manque de données d'évaluation évolutives pour améliorer les capacités de planification et d'inférence des modèles de langage à grande échelle (MLL), cet article présente NL2Flow, un pipeline permettant de générer et d'évaluer automatiquement des problèmes de planification de flux de travail. NL2Flow paramètre le problème dans une représentation intermédiaire structurée, qui est ensuite traduite en langage naturel et en PDDL formel. À l'aide d'un ensemble de données de 2 296 problèmes de faible difficulté, nous évaluons plusieurs LLM open source à réglage dirigé. Le modèle le plus performant atteint un taux de réussite de 86 % pour la génération de plans valides et de 69 % pour la génération de plans optimaux (pour les problèmes résolubles). L'analyse de régression révèle que l'impact des caractéristiques du problème sur la génération de plans varie selon le modèle et la conception de l'invite. Plus précisément, la conversion du problème en langage naturel en une représentation JSON structurée, puis la planification symbolique, améliorent significativement le taux de réussite, suggérant les avantages de l'intégration neuronale-symbolique. À mesure que l'inférence LLM s'adapte à des tâches plus complexes, il est crucial de comprendre les sources d'erreur au sein du système.