Cet article explore l'utilisation de la génération de données synthétiques pour réduire le coût de l'annotation humaine dans les systèmes de traitement du langage naturel (TALN). Nous analysons l'efficacité du remplacement progressif des données générées par l'homme par des données synthétiques pour les tâches de vérification des faits (VF) et de réponse aux questions (QA) à l'aide de huit jeux de données différents. Nos expériences révèlent que le remplacement de jusqu'à 90 % des données d'entraînement par des données synthétiques entraîne une dégradation minimale des performances, tandis que le remplacement des 10 % restants entraîne une dégradation significative des performances. Nous démontrons que les modèles entraînés uniquement sur des données synthétiques peuvent améliorer leurs performances avec seulement 125 points de données générés par l'homme, tandis que des quantités nettement plus importantes de données synthétiques sont nécessaires pour obtenir les gains de performance associés à 200 points de données supplémentaires générés par l'homme. Ces résultats suggèrent que même si l'annotation humaine à grande échelle n'est pas réalisable, la génération humaine d'une partie de l'ensemble de données peut s'avérer précieuse.