Afin de relever les défis liés à la création d'ensembles de données de haute qualité pour des tâches spécialisées, cet article propose la méthode CRAFT (Corpus Retrieval and Augmentation for Fine-Tuning), qui génère des ensembles de données synthétiques à partir d'un petit nombre de clichés générés par les utilisateurs. CRAFT utilise un corpus d'exploration web public à grande échelle et une recherche de documents basée sur la similarité pour trouver les documents pertinents. Il s'appuie également sur un modèle de langage géant (LLM) à orientation directive pour enrichir les documents récupérés avec des échantillons de tâches définis par l'utilisateur. Des expériences sur quatre tâches différentes – biologie, médecine, questions-réponses de sens commun (QA) et résumé – démontrent que CRAFT génère efficacement de grands ensembles de données d'entraînement spécifiques à chaque tâche, surpassant ou égalant un LLM standard pour la tâche QA et obtenant une amélioration de préférence de 46 points par rapport aux modèles entraînés sur des données existantes gérées par l'homme pour la tâche de résumé. De plus, il surpasse d’autres méthodes de génération de jeux de données synthétiques, telles que Self-Instruct et Evol-Instruct, et maintient des performances robustes même lorsque la qualité des premières prises de vue varie.