Bài báo này khám phá việc sử dụng dữ liệu tổng hợp để giải quyết chi phí chú thích của con người trong các hệ thống xử lý ngôn ngữ tự nhiên (NLP). Chúng tôi phân tích hiệu quả của việc dần dần thay thế dữ liệu do con người tạo ra bằng dữ liệu tổng hợp cho các tác vụ xác minh sự thật (FV) và trả lời câu hỏi (QA) bằng tám tập dữ liệu đa dạng. Các thí nghiệm của chúng tôi cho thấy việc thay thế tới 90% dữ liệu đào tạo bằng dữ liệu tổng hợp dẫn đến sự suy giảm hiệu suất tối thiểu, nhưng thay thế 10% còn lại dẫn đến sự suy giảm hiệu suất đáng kể. Chúng tôi chứng minh rằng các mô hình được đào tạo hoàn toàn trên dữ liệu tổng hợp có thể cải thiện hiệu suất chỉ với 125 điểm dữ liệu do con người tạo ra, trong khi cần một lượng dữ liệu tổng hợp lớn hơn đáng kể để đạt được mức tăng hiệu suất liên quan đến 200 điểm dữ liệu do con người tạo ra bổ sung. Những phát hiện này cho thấy rằng ngay cả khi chú thích của con người trên quy mô lớn là không khả thi, thì việc con người tạo ra một phần tập dữ liệu có thể có giá trị.