दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

सोर्सस्प्लिस: मशीन लर्निंग कार्यों के लिए स्रोत चयन

Created by
  • Haebom

लेखक

अम्बरीश सिंह, रोमिला प्रधान

रूपरेखा

यह शोध पत्र डेटा गुणवत्ता के मुद्दे पर विचार करता है, जो मशीन लर्निंग (एमएल) कार्यों के पूर्वानुमानित प्रदर्शन में महत्वपूर्ण भूमिका निभाता है। आधुनिक संगठनों में उपलब्ध डेटा स्रोतों की विशाल संख्या के कारण यह चुनौती और भी बढ़ जाती है। मौजूदा डेटा खोज अनुसंधान मुख्य रूप से मेटाडेटा मिलान, अर्थगत समानता, या उन तालिकाओं की पहचान पर केंद्रित रहा है जिन्हें किसी विशिष्ट प्रश्न का उत्तर देने के लिए संयोजित किया जाना चाहिए, लेकिन बाद के एमएल कार्यों के उच्च प्रदर्शन के लिए स्रोत गुणवत्ता पर विचार नहीं किया गया है। यह शोध पत्र किसी दिए गए एमएल कार्य के लिए प्राथमिक प्रशिक्षण डेटासेट बनाने के लिए संयोजित किए जाने वाले डेटा स्रोतों के इष्टतम उपसमूह के निर्धारण की समस्या पर विचार करता है। इस उद्देश्य से, हम SourceGrasp और SourceSplice फ्रेमवर्क का प्रस्ताव करते हैं, जिन्हें स्रोतों के एक उपयुक्त उपसमूह का कुशलतापूर्वक चयन करने के लिए डिज़ाइन किया गया है जो बाद के एमएल मॉडलों की उपयोगिता को अधिकतम करता है। दोनों एल्गोरिदम इस मूल विचार पर आधारित हैं कि स्रोत (या स्रोतों के संयोजन) कार्य उपयोगिता में अलग-अलग योगदान करते हैं और उनका चयन सावधानीपूर्वक किया जाना चाहिए। SourceGrasp लालच और यादृच्छिकीकरण पर आधारित एक मेटाहेयुरिस्टिक का उपयोग करता है, जबकि SourceSplice फ्रेमवर्क जीन स्प्लिसिंग से प्रेरित एक स्रोत चयन तंत्र प्रस्तुत करता है। तीन वास्तविक-विश्व और कृत्रिम डेटासेट पर किए गए प्रायोगिक मूल्यांकन दर्शाते हैं कि सोर्सस्प्लिस उन डेटा स्रोतों के उपसमूहों की प्रभावी रूप से पहचान करता है जो उच्च कार्य उपयोगिता की ओर ले जाते हैं, भले ही अन्वेषण के लिए उपसमूह काफी कम हों। हम विभिन्न परिस्थितियों में सोर्सस्प्लिस के निर्णय लेने के विकल्पों की संवेदनशीलता पर शोध भी करते हैं।

Takeaways, Limitations

Takeaways:
एमएल कार्यों के प्रदर्शन में सुधार के लिए डेटा स्रोत चयन की समस्या के लिए एक नया दृष्टिकोण।
सोर्सस्प्लिस एल्गोरिथ्म उच्च परिचालन उपयोगिता प्राप्त करने के लिए डेटा स्रोतों के इष्टतम उपसमूह का कुशलतापूर्वक चयन करता है।
वास्तविक और सिंथेटिक डेटासेट का उपयोग करके प्रयोगात्मक मूल्यांकन के माध्यम से एल्गोरिदम की प्रभावशीलता का सत्यापन।
सोर्सस्प्लिस के संवेदनशीलता विश्लेषण के माध्यम से एल्गोरिथम की विश्वसनीयता का सत्यापन करना।
Limitations:
प्रस्तावित एल्गोरिथम का प्रदर्शन उपयोग किए गए डेटासेट और एमएल कार्य के आधार पर भिन्न हो सकता है।
यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है कि क्या सोर्सस्प्लिस का जीन स्प्लिसिंग-प्रेरित तंत्र सभी प्रकार के डेटा स्रोतों पर लागू होता है।
अधिक विविध एवं बड़े डेटासेट पर प्रायोगिक मूल्यांकन की आवश्यकता है।
विशिष्ट एमएल कार्यों के लिए इष्टतम उपसमूह आकार का निर्धारण करने के तरीके पर आगे अनुसंधान की आवश्यकता है।
👍