Bài báo này đề cập đến vấn đề chất lượng dữ liệu, vốn đóng vai trò quan trọng trong hiệu suất dự đoán của các tác vụ học máy (ML). Thách thức này càng trở nên trầm trọng hơn do số lượng lớn các nguồn dữ liệu có sẵn trong các tổ chức hiện đại. Các nghiên cứu khám phá dữ liệu hiện tại chủ yếu tập trung vào việc khớp siêu dữ liệu, độ tương đồng ngữ nghĩa hoặc xác định các bảng cần được kết hợp để trả lời một truy vấn cụ thể, nhưng chưa xem xét chất lượng nguồn để đảm bảo hiệu suất cao cho các tác vụ ML tiếp theo. Bài báo này đề cập đến vấn đề xác định tập con tối ưu của các nguồn dữ liệu cần được kết hợp để tạo thành tập dữ liệu huấn luyện chính cho một tác vụ ML nhất định. Vì mục đích này, chúng tôi đề xuất các khung SourceGrasp và SourceSplice, được thiết kế để lựa chọn hiệu quả một tập con nguồn phù hợp nhằm tối đa hóa tiện ích của các mô hình ML tiếp theo. Cả hai thuật toán đều dựa trên ý tưởng cốt lõi rằng các nguồn (hoặc tổ hợp các nguồn) đóng góp khác nhau vào tiện ích của tác vụ và cần được lựa chọn cẩn thận. SourceGrasp sử dụng một siêu thuật toán dựa trên lòng tham và sự ngẫu nhiên, trong khi khung SourceSplice trình bày một cơ chế lựa chọn nguồn lấy cảm hứng từ quá trình ghép nối gen. Các đánh giá thử nghiệm trên ba tập dữ liệu thực tế và tổng hợp cho thấy SourceSplice xác định hiệu quả các tập hợp con nguồn dữ liệu mang lại tính hữu dụng cao, ngay cả khi số lượng tập hợp con cần khám phá ít hơn đáng kể. Chúng tôi cũng tiến hành nghiên cứu báo cáo độ nhạy của các lựa chọn ra quyết định của SourceSplice trong nhiều bối cảnh khác nhau.