Este artículo explora el uso de la generación de datos sintéticos para abordar el costo de la anotación humana en sistemas de procesamiento del lenguaje natural (PLN). Analizamos la efectividad de reemplazar gradualmente los datos generados por humanos con datos sintéticos para tareas de verificación de hechos (VF) y respuesta a preguntas (QA) utilizando ocho conjuntos de datos diversos. Nuestros experimentos revelan que reemplazar hasta el 90% de los datos de entrenamiento con datos sintéticos resulta en una degradación mínima del rendimiento, pero reemplazar el 10% restante resulta en una degradación significativa del rendimiento. Demostramos que los modelos entrenados exclusivamente con datos sintéticos pueden mejorar el rendimiento con tan solo 125 puntos de datos generados por humanos, mientras que se requieren cantidades significativamente mayores de datos sintéticos para lograr las ganancias de rendimiento asociadas con 200 puntos de datos generados por humanos adicionales. Estos hallazgos sugieren que, incluso si la anotación humana a gran escala no es factible, generar una parte del conjunto de datos por humanos puede ser valioso.