यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह पत्र इस बात पर प्रकाश डालता है कि डोमेन नमूनाकरण रणनीतियाँ विभिन्न डोमेन के डेटा से प्रशिक्षित बड़े पैमाने के भाषा मॉडल (एलएलएम) में उप-कार्यों के प्रदर्शन को महत्वपूर्ण रूप से प्रभावित करती हैं। इसलिए, हम DIDS (डोमेन इम्पैक्ट-अवेयर डेटा सैंपलिंग) का प्रस्ताव करते हैं, जो एक डेटा सैंपलिंग तकनीक है जो डोमेन प्रभाव पर विचार करती है। DIDS सीखने के प्रभावों के आधार पर प्रशिक्षण डेटा को समूहीकृत करने के लिए एक ग्रेडिएंट क्लस्टरिंग एल्गोरिदम का उपयोग करता है और कम्प्यूटेशनल लागत को कम करने के लिए प्रॉक्सी भाषा मॉडल और आयाम में कमी तकनीकों का लाभ उठाता है। इसके अलावा, हम उप-कार्यों में मॉडल के आउटपुट वितरण पर डोमेन-विशिष्ट पैरामीटर अपडेट के प्रभाव को मापने के लिए एक फिशर सूचना मैट्रिक्स (FIM)-आधारित मीट्रिक विकसित करते हैं। फिर हम इष्टतम नमूना अनुपात निर्धारित करने के लिए FIM-आधारित डोमेन प्रभाव मूल्यांकन को हानि सीखने के साथ जोड़ते हैं