Este artículo aborda la falta de datos de evaluación escalables y fiables para mejorar las capacidades de planificación e inferencia de los modelos de lenguaje a gran escala (LLM). Para ello, seleccionamos un dominio adecuado, generamos flujos de trabajo automatizados y presentamos NL2Flow, un sistema totalmente automatizado para generar problemas de planificación utilizando lenguaje natural, representaciones intermedias estructuradas y PDDL formal. NL2Flow genera un conjunto de datos de 2296 problemas de baja dificultad y evalúa varios LLM de código abierto, optimizados según directivas, sin optimización específica de la tarea ni modificación de la arquitectura. Los resultados de la evaluación muestran que el modelo con mejor rendimiento alcanza una tasa de éxito del 86 % en la generación de planes válidos y del 69 % en la generación de planes óptimos para problemas con planes factibles. El análisis de regresión demuestra que el impacto de las características del problema varía según el modelo y el diseño de la solicitud. Además, investigamos el potencial de LLM como conversor de lenguaje natural a JSON para definiciones de flujos de trabajo y evaluamos su rendimiento de traducción en descripciones de flujos de trabajo en lenguaje natural para facilitar la integración con herramientas de computación simbólica y planificadores simbólicos posteriores. La conversión del lenguaje natural a una representación JSON del problema del flujo de trabajo arrojó tasas de éxito inferiores a la generación directa de un plan, lo que sugiere que la descomposición innecesaria de la tarea de inferencia puede reducir el rendimiento y destaca las ventajas de los modelos capaces de inferir directamente del lenguaje natural a las acciones. A medida que la inferencia LLM escala a problemas cada vez más complejos, es crucial comprender los cuellos de botella y las fuentes de error en constante evolución dentro de estos sistemas.