दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

मशीन लर्निंगएलएम: निरंतर पूर्व-प्रशिक्षण के माध्यम से कई-शॉट इन-कॉन्टेक्स्ट लर्निंग का स्केलिंग

Created by
  • Haebom

लेखक

हाओयू डोंग, पेंगकुन झांग, मिंगज़े लू, यानज़ेन शेन, गुओलिन के

रूपरेखा

यह शोधपत्र एक नवीन ढाँचा, MachineLearningLM, प्रस्तुत करता है जो वृहद्-स्तरीय भाषा मॉडलों (LLM) की संदर्भ-संवेदनशील अधिगम (ICL) क्षमताओं को बढ़ाता है। MachineLearningLM को लाखों संरचित कारणात्मक मॉडलों (SCM) से उत्पन्न विभिन्न प्रकार के मशीन लर्निंग (ML) कार्यों का उपयोग करके पूर्व-प्रशिक्षित किया जाता है। विशेष रूप से, यह संख्यात्मक मॉडलिंग की सुदृढ़ता बढ़ाने के लिए LLM में एक यादृच्छिक वन-आधारित निर्णय-निर्माण रणनीति का समावेश करता है, और टोकन-कुशल संकेतों के माध्यम से प्रति संदर्भ विंडो में अधिक उदाहरणों को संसाधित करके थ्रूपुट को बढ़ाता है। प्रायोगिक परिणाम दर्शाते हैं कि MachineLearningLM विभिन्न डोमेन में गैर-वितरित सारणीबद्ध डेटा वर्गीकरण कार्यों पर मौजूदा सुदृढ़ LLM बेसलाइन मॉडलों से औसतन 15% बेहतर प्रदर्शन करता है, जो एक उल्लेखनीय मल्टी-शॉट स्केलिंग नियम प्रदर्शित करता है, जिसमें संदर्भ के भीतर उदाहरणों की संख्या बढ़ने के साथ सटीकता एकसमान रूप से बढ़ती जाती है। इसके अलावा, यह सामान्य चैट कार्यक्षमता, ज्ञान और अनुमान क्षमताओं को बनाए रखता है।

Takeaways, Limitations

Takeaways:
हम एलएलएम की प्रासंगिक शिक्षण क्षमताओं को प्रभावी ढंग से बढ़ाने के लिए एक नवीन रूपरेखा प्रस्तुत करते हैं।
विभिन्न क्षेत्रों में मशीन लर्निंग कार्यों में मौजूदा मॉडलों की तुलना में बेहतर प्रदर्शन प्राप्त करना।
हम मल्टी-शॉट स्केलिंग कानून की पुष्टि करते हैं, जो दर्शाता है कि संदर्भ में उदाहरणों की संख्या बढ़ने पर प्रदर्शन में सुधार होता है।
सामान्य चैट कार्यक्षमता और ज्ञान एवं तर्क क्षमताओं को बनाए रखते हुए मशीन लर्निंग क्षमताओं को बढ़ाएं।
टोकन-कुशल प्रॉम्प्ट के माध्यम से थ्रूपुट में उल्लेखनीय सुधार करें।
Limitations:
वर्तमान में, केवल LLM (Qwen-2.5-7B-Instruct) और LoRA के एक विशिष्ट पैमाने का उपयोग करके प्रयोगात्मक परिणाम प्रस्तुत किए गए हैं। अन्य मॉडलों और सेटिंग्स पर सामान्यीकरण निर्धारित करने के लिए और अधिक शोध की आवश्यकता है।
संरचनात्मक कारणात्मक मॉडल (एससीएम) के निर्माण और चयन की प्रक्रिया के विस्तृत विवरण का अभाव।
विभिन्न एमएल कार्य प्रकारों में सामान्यीकरण प्रदर्शन के आगे सत्यापन की आवश्यकता है।
👍