Para abordar la falta de datos de evaluación escalables que mejoren las capacidades de planificación e inferencia de los modelos de lenguaje a gran escala (LLM), este artículo presenta NL2Flow, una metodología para generar y evaluar automáticamente problemas de planificación de flujos de trabajo. NL2Flow parametriza el problema en una representación intermedia estructurada, que posteriormente se traduce a lenguaje natural y PDDL formal. Utilizando un conjunto de datos de 2296 problemas de baja dificultad, evaluamos varios LLM de código abierto con optimización dirigida. El modelo con mejor rendimiento alcanza una tasa de éxito del 86 % en la generación de planes válidos y del 69 % en la generación de planes óptimos (para problemas con solución). El análisis de regresión revela que el impacto de las características del problema en la generación de planes varía según el modelo y el diseño de la solicitud. En concreto, convertir el problema de lenguaje natural en una representación JSON estructurada y, posteriormente, realizar la planificación simbólica mejora significativamente la tasa de éxito, lo que sugiere las ventajas de la integración neurosimbólica. A medida que la inferencia de LLM escala a tareas más complejas, es crucial comprender las fuentes de error dentro del sistema.