Este artículo propone un marco sintético de generación de datos de contexto de texto largo para mejorar la capacidad de los modelos lingüísticos a gran escala (LLM) para procesar e inferir entradas de texto largo. Para abordar la falta de conjuntos de datos de contexto de texto largo de alta calidad, diversos y verificables, presentamos un marco modular y extensible para generar datos mediante interacciones LLM basadas en indicaciones. Este marco admite diversos objetivos de aprendizaje y alineación (SFT, DPO y GRPO) e incorpora cuatro paradigmas de generación de datos: conversaciones multironda, pares de entrada-salida basados en documentos, tareas de comando-respuesta verificables y ejemplos de inferencia de texto largo. Las indicaciones basadas en plantillas, una arquitectura independiente del modelo y una salida rica en metadatos facilitan la generación de conjuntos de datos escalables, controlables y específicos para cada propósito.