दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

बड़े भाषा मॉडल विकल्प की लंबाई, समस्या के प्रकार और अप्रासंगिक संज्ञा प्रतिस्थापनों के संबंध में खराब सामान्यीकरण करते हैं

Created by
  • Haebom

लेखक

गुआंगज़ियांग झाओ, सायर हू, ज़ियाओकी जियान, जिंझू वू, युहान वू, चेंज जिया, लिन सन, ज़ियांगझेंग झांग

रूपरेखा

यह शोधपत्र बड़े पैमाने के भाषा मॉडलों (एलएलएम) की सामान्यीकरण क्षमता का मूल्यांकन करने के लिए एक "सामान्यीकरण तनाव परीक्षण" प्रस्तावित करता है। हम विकल्प की लंबाई, प्रश्न के प्रकार और अप्रासंगिक संज्ञा प्रतिस्थापनों में मामूली, नियंत्रित परिवर्तन लागू करके एलएलएम की सामान्यीकरण क्षमता का मूल्यांकन करते हैं। प्रायोगिक परिणामों से पता चलता है कि उच्च बेंचमार्क स्कोर के बावजूद, एलएलएम इन मामूली, विषय-वस्तु-संरक्षण संशोधनों का सामना करने पर महत्वपूर्ण सटीकता ह्रास और अप्रत्याशित पूर्वाग्रह (जैसे, लंबे गलत उत्तरों के लिए वरीयता) प्रदर्शित करते हैं। उदाहरण के लिए, क्वेन 2.5 1.5B का MMLU स्कोर विकल्प की लंबाई बदलने पर 60 से बढ़कर 89 हो जाता है, लेकिन प्रश्न अपरिवर्तित रहने पर 89 से घटकर 36 हो जाता है। यहाँ तक कि GPT-4 भी प्रश्न के प्रकार में परिवर्तन होने पर 25 अंकों की सटीकता हानि का अनुभव करता है, और तीनों संशोधन श्रेणियों में 6 अंकों की कमी होती है। यह विश्लेषण बताता है कि एलएलएम प्रारूप, शाब्दिक भिन्नता और अप्रासंगिक विषय-वस्तु भिन्नता में सामान्यीकरण करने वाले मजबूत, अमूर्त निरूपण बनाने के बजाय सतही संकेतों पर बहुत अधिक निर्भर करते हैं।

Takeaways, Limitations

Takeaways:
इससे पता चलता है कि एलएलएम के उच्च बेंचमार्क स्कोर वास्तविक सामान्यीकरण क्षमता को प्रतिबिंबित नहीं कर सकते हैं।
इससे पता चलता है कि एलएलएम सतही संकेतों पर काम करते हैं और सच्ची समझ के बजाय पैटर्न मिलान पर आधारित होते हैं।
हम एलएलएम की सामान्यीकरण क्षमता का आकलन करने के लिए एक नई पद्धति, "सामान्यीकरण तनाव परीक्षण" प्रस्तुत करते हैं।
हम एलएलएम विकास में सामान्यीकरण कौशल में सुधार के महत्व पर जोर देते हैं।
Limitations:
प्रस्तावित “सामान्यीकृत तनाव परीक्षण” की सामान्यीकरण और मापनीयता का पता लगाने के लिए आगे अनुसंधान की आवश्यकता है।
परीक्षण में प्रयुक्त विक्षोभ का प्रकार और तीव्रता सीमित हो सकती है।
चूंकि ये परिणाम एक विशिष्ट एलएलएम और डेटासेट के लिए हैं, इसलिए इन्हें अन्य एलएलएम या डेटासेट के लिए सामान्यीकृत करने में सावधानी बरतने की आवश्यकता है।
👍