Bài báo này trình bày Source2Synth, một phương pháp mới tận dụng việc tạo dữ liệu tổng hợp để cải thiện hiệu suất của các mô hình ngôn ngữ quy mô lớn (LLM) mà không cần chú thích thủ công tốn kém. Source2Synth tạo dữ liệu tổng hợp dựa trên các nguồn dữ liệu thực tế và nâng cao chất lượng dữ liệu bằng cách kết hợp một bước suy luận trung gian. Phương pháp này cải thiện chất lượng tập dữ liệu bằng cách loại bỏ các hiện vật chất lượng thấp dựa trên khả năng trả lời. Chúng tôi chứng minh hiệu suất được cải thiện bằng cách áp dụng phương pháp này cho hai tác vụ sử dụng các loại dữ liệu đa dạng: trả lời câu hỏi nhiều bước (MHQA), đánh giá khả năng lập luận phức tạp bằng tài liệu, và trả lời câu hỏi bảng (TQA), đánh giá khả năng sử dụng công cụ bằng bảng. Chúng tôi đạt được mức tăng hiệu suất là 25,51% đối với tác vụ TQA WikiSQL và 22,57% đối với tác vụ MHQA HotpotQA, so với các mô hình cơ sở hiện có.