En este artículo, presentamos evidencia de que los SLM aún ofrecen una ventaja de calidad para ciertas tareas de dominio que requieren resultados estructurados, a pesar de que la aparición de modelos de lenguaje a gran escala (LLM), como GPT-4, dificulta la comprensión de los beneficios (inferencia más rápida, menor costo) del ajuste fino de los modelos de lenguaje a pequeña escala (SLM) para aplicaciones del mundo real. Al comparar el ajuste fino de SLM con la incitación de LLM en una tarea de generación de flujo de trabajo JSON de bajo código, observamos que una buena incitación puede producir resultados razonables, pero el ajuste fino solo mejora la calidad en un promedio del 10 %. Además, revelamos las limitaciones del modelo mediante el análisis sistemático de errores.