Este artículo presenta NL2Flow, una canalización automatizada diseñada para abordar la falta de datos de evaluación escalables para evaluar la planificación del flujo de trabajo y el rendimiento de la inferencia de modelos de lenguaje a gran escala (LLM). NL2Flow genera una representación intermedia estructurada del problema y la traduce a lenguaje natural y PDDL formal. Utilizando un conjunto de datos de 2296 problemas de baja dificultad, evaluamos varios LLM de código abierto con optimización dirigida. El modelo con mejor rendimiento alcanza una tasa de éxito del 86 % en la generación de planes válidos y del 69 % en la generación de planes óptimos. El análisis de regresión revela que el impacto de las características del problema varía según el modelo y el diseño de la solicitud. Específicamente, demostramos los beneficios de la integración de símbolos neuronales al demostrar que la conversión de problemas de lenguaje natural en representaciones JSON estructuradas y la posterior planificación simbólica mejoran significativamente la tasa de éxito. Estos resultados resaltan la importancia de comprender las fuentes de error en la inferencia de LLM a medida que escala a tareas complejas.