दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

टीएल-प्रशिक्षण: उपकरण उपयोग में बड़े भाषा मॉडल के प्रशिक्षण के लिए एक कार्य-विशेषता-आधारित ढांचा

Created by
  • Haebom

लेखक

जुन्जी ये, यिलोंग वू, सिक्सियन ली, युमिंग यांग, झीहेंग शी, ताओ गुई, क्यूई झांग, जुआनजिंग हुआंग, पेंग वांग, झोंगचाओ शि, जियानपिंग फैन, झेंग्यिन डू

रूपरेखा

यह शोधपत्र उन बड़े पैमाने के भाषा मॉडल (LLM) के प्रदर्शन में सुधार पर केंद्रित है जो अपने परिवेशों के साथ अंतःक्रिया करने के लिए उपकरणों का उपयोग करते हैं। मौजूदा पर्यवेक्षित शिक्षण फ़ाइन-ट्यूनिंग (SFT) दृष्टिकोण बड़े डेटासेट पर निर्भर करते हैं और कार्य विशेषताओं की अनदेखी करने की सीमा से ग्रस्त हैं। इस समस्या का समाधान करने के लिए, शोधकर्ताओं ने तीन मौजूदा LLM का विश्लेषण किया और पाया कि प्रशिक्षण डेटा उपकरण उपयोग व्यवहार में बाधा डालता है, टोकन का महत्व असमान रूप से वितरित होता है, और उपकरण आह्वान त्रुटियाँ विशिष्ट श्रेणियों में केंद्रित होती हैं। इन निष्कर्षों के आधार पर, शोधकर्ता TL-प्रशिक्षण, एक कार्य-विशेषता-आधारित ढाँचा, प्रस्तावित करते हैं। TL-प्रशिक्षण उप-इष्टतम प्रशिक्षण डेटा के प्रभावों को कम करता है, SFT में महत्वपूर्ण टोकन को प्राथमिकता देने के लिए टोकन भार को गतिशील रूप से समायोजित करता है, और समीपस्थ नीति अनुकूलन के माध्यम से त्रुटि श्रेणियों के अनुरूप एक उन्नत पुरस्कार तंत्र को अनुकूलित करता है। CodeLLaMA-2-7B का प्रशिक्षण और चार ओपन-सोर्स परीक्षण सेटों पर उसका मूल्यांकन यह दर्शाता है कि सीमित प्रशिक्षण डेटा सेट (1,217 टोकन) के साथ भी, TL-प्रशिक्षण, ओपन-सोर्स और क्लोज्ड-सोर्स LLM के बराबर या उससे बेहतर टूल-उपयोग प्रदर्शन प्राप्त करता है। इसके अतिरिक्त, यह LLM में टूल-उपयोग प्रशिक्षण के लिए एक मापनीय और कुशल प्रतिमान प्रदान करता है, जिससे शोर भरे वातावरण में सुदृढ़ता और सामान्य कार्य प्रदर्शन में सुधार होता है। कोड और डेटा https://github.com/Junjie-Ye/TL-Training पर उपलब्ध हैं ।

Takeaways, Limitations

Takeaways:
हम एक कुशल प्रशिक्षण ढांचा (टीएल-प्रशिक्षण) प्रस्तुत करते हैं जो सीमित प्रशिक्षण डेटा के साथ भी उत्कृष्ट उपकरण उपयोग प्रदर्शन प्राप्त करता है।
शोर भरे वातावरण में बेहतर मजबूती और सामान्य कार्य निष्पादन में सुधार।
एलएलएम में उपकरण-उपयोग प्रशिक्षण के लिए एक मापनीय और कुशल प्रतिमान प्रस्तुत करना।
मौजूदा एसएफटी पद्धति का विश्लेषण करें और सुधार के उपाय सुझाएं।
Limitations:
टीएल-प्रशिक्षण का प्रदर्शन विशिष्ट एलएलएम और डेटासेट तक सीमित हो सकता है।
विभिन्न उपकरणों और कार्य प्रकारों के लिए सामान्यीकरण प्रदर्शन सत्यापन आवश्यक है।
सामान्यीकरण प्रदर्शन और बहुमुखी प्रतिभा को सत्यापित करने के लिए अधिक व्यापक प्रयोगात्मक और तुलनात्मक अध्ययन की आवश्यकता है।
उपयोग किए गए प्रशिक्षण डेटा का छोटा आकार वास्तविक दुनिया के बड़े पैमाने के अनुप्रयोग परिदृश्यों में सामान्यीकरण पर आगे अनुसंधान की आवश्यकता को दर्शाता है।
👍