Cet article propose un cadre synthétique de génération de données contextuelles de texte long afin d'améliorer la capacité des modèles linguistiques à grande échelle (LLM) à traiter et à inférer des entrées de texte long. Pour pallier le manque d'ensembles de données contextuelles de texte long de haute qualité, diversifiés et vérifiables, nous présentons un cadre modulaire et extensible permettant de générer des données via des interactions LLM basées sur des invites. Ce cadre prend en charge divers objectifs d'apprentissage et d'alignement (SFT, DPO et GRPO) et intègre quatre paradigmes de génération de données : conversations à plusieurs tours, paires d'entrées-sorties basées sur des documents, tâches de commande-réponse vérifiables et exemples d'inférence de texte long. L'invite basée sur des modèles, une architecture indépendante du modèle et une sortie riche en métadonnées facilitent la génération d'ensembles de données évolutifs, contrôlables et spécifiques à un objectif.