यह शोध पत्र डेटा गुणवत्ता के मुद्दे पर विचार करता है, जो मशीन लर्निंग (एमएल) कार्यों के पूर्वानुमानित प्रदर्शन में महत्वपूर्ण भूमिका निभाता है। आधुनिक संगठनों में उपलब्ध डेटा स्रोतों की विशाल संख्या के कारण यह चुनौती और भी बढ़ जाती है। मौजूदा डेटा खोज अनुसंधान मुख्य रूप से मेटाडेटा मिलान, अर्थगत समानता, या उन तालिकाओं की पहचान पर केंद्रित रहा है जिन्हें किसी विशिष्ट प्रश्न का उत्तर देने के लिए संयोजित किया जाना चाहिए, लेकिन बाद के एमएल कार्यों के उच्च प्रदर्शन के लिए स्रोत गुणवत्ता पर विचार नहीं किया गया है। यह शोध पत्र किसी दिए गए एमएल कार्य के लिए प्राथमिक प्रशिक्षण डेटासेट बनाने के लिए संयोजित किए जाने वाले डेटा स्रोतों के इष्टतम उपसमूह के निर्धारण की समस्या पर विचार करता है। इस उद्देश्य से, हम SourceGrasp और SourceSplice फ्रेमवर्क का प्रस्ताव करते हैं, जिन्हें स्रोतों के एक उपयुक्त उपसमूह का कुशलतापूर्वक चयन करने के लिए डिज़ाइन किया गया है जो बाद के एमएल मॉडलों की उपयोगिता को अधिकतम करता है। दोनों एल्गोरिदम इस मूल विचार पर आधारित हैं कि स्रोत (या स्रोतों के संयोजन) कार्य उपयोगिता में अलग-अलग योगदान करते हैं और उनका चयन सावधानीपूर्वक किया जाना चाहिए। SourceGrasp लालच और यादृच्छिकीकरण पर आधारित एक मेटाहेयुरिस्टिक का उपयोग करता है, जबकि SourceSplice फ्रेमवर्क जीन स्प्लिसिंग से प्रेरित एक स्रोत चयन तंत्र प्रस्तुत करता है। तीन वास्तविक-विश्व और कृत्रिम डेटासेट पर किए गए प्रायोगिक मूल्यांकन दर्शाते हैं कि सोर्सस्प्लिस उन डेटा स्रोतों के उपसमूहों की प्रभावी रूप से पहचान करता है जो उच्च कार्य उपयोगिता की ओर ले जाते हैं, भले ही अन्वेषण के लिए उपसमूह काफी कम हों। हम विभिन्न परिस्थितियों में सोर्सस्प्लिस के निर्णय लेने के विकल्पों की संवेदनशीलता पर शोध भी करते हैं।