Cet article présente Source2Synth, une nouvelle approche qui exploite la génération de données synthétiques pour améliorer les performances des modèles linguistiques à grande échelle (LLM) sans annotation manuelle coûteuse. Source2Synth génère des données synthétiques à partir de sources de données réelles et améliore la qualité des données en intégrant une étape d'inférence intermédiaire. Il améliore la qualité des jeux de données en supprimant les artefacts de faible qualité basés sur la possibilité de réponse. Nous démontrons des gains de performance en appliquant cette approche à deux tâches utilisant divers types de données : la réponse aux questions en plusieurs étapes (MHQA), qui évalue les capacités de raisonnement complexe à l'aide de documents, et la réponse aux questions sous forme de tableaux (TQA), qui évalue l'utilisabilité des outils à l'aide de tableaux. Nous obtenons des gains de performance de 25,51 % sur la tâche TQA WikiSQL et de 22,57 % sur la tâche MHQA HotpotQA, par rapport aux modèles de référence existants.