यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
यह शोधपत्र उन बड़े पैमाने के भाषा मॉडल (LLM) के प्रदर्शन में सुधार पर केंद्रित है जो अपने परिवेशों के साथ अंतःक्रिया करने के लिए उपकरणों का उपयोग करते हैं। मौजूदा पर्यवेक्षित शिक्षण फ़ाइन-ट्यूनिंग (SFT) दृष्टिकोण बड़े डेटासेट पर निर्भर करते हैं और कार्य विशेषताओं की अनदेखी करने की सीमा से ग्रस्त हैं। इस समस्या का समाधान करने के लिए, शोधकर्ताओं ने तीन मौजूदा LLM का विश्लेषण किया और पाया कि प्रशिक्षण डेटा उपकरण उपयोग व्यवहार में बाधा डालता है, टोकन का महत्व असमान रूप से वितरित होता है, और उपकरण आह्वान त्रुटियाँ विशिष्ट श्रेणियों में केंद्रित होती हैं। इन निष्कर्षों के आधार पर, शोधकर्ता TL-प्रशिक्षण, एक कार्य-विशेषता-आधारित ढाँचा, प्रस्तावित करते हैं। TL-प्रशिक्षण उप-इष्टतम प्रशिक्षण डेटा के प्रभावों को कम करता है, SFT में महत्वपूर्ण टोकन को प्राथमिकता देने के लिए टोकन भार को गतिशील रूप से समायोजित करता है, और समीपस्थ नीति अनुकूलन के माध्यम से त्रुटि श्रेणियों के अनुरूप एक उन्नत पुरस्कार तंत्र को अनुकूलित करता है। CodeLLaMA-2-7B का प्रशिक्षण और चार ओपन-सोर्स परीक्षण सेटों पर उसका मूल्यांकन यह दर्शाता है कि सीमित प्रशिक्षण डेटा सेट (1,217 टोकन) के साथ भी, TL-प्रशिक्षण, ओपन-सोर्स और क्लोज्ड-सोर्स LLM के बराबर या उससे बेहतर टूल-उपयोग प्रदर्शन प्राप्त करता है। इसके अतिरिक्त, यह LLM में टूल-उपयोग प्रशिक्षण के लिए एक मापनीय और कुशल प्रतिमान प्रदान करता है, जिससे शोर भरे वातावरण में सुदृढ़ता और सामान्य कार्य प्रदर्शन में सुधार होता है। कोड और डेटा https://github.com/Junjie-Ye/TL-Training पर उपलब्ध हैं ।
हम एक कुशल प्रशिक्षण ढांचा (टीएल-प्रशिक्षण) प्रस्तुत करते हैं जो सीमित प्रशिक्षण डेटा के साथ भी उत्कृष्ट उपकरण उपयोग प्रदर्शन प्राप्त करता है।
◦
शोर भरे वातावरण में बेहतर मजबूती और सामान्य कार्य निष्पादन में सुधार।
◦
एलएलएम में उपकरण-उपयोग प्रशिक्षण के लिए एक मापनीय और कुशल प्रतिमान प्रस्तुत करना।
◦
मौजूदा एसएफटी पद्धति का विश्लेषण करें और सुधार के उपाय सुझाएं।
•
Limitations:
◦
टीएल-प्रशिक्षण का प्रदर्शन विशिष्ट एलएलएम और डेटासेट तक सीमित हो सकता है।
◦
विभिन्न उपकरणों और कार्य प्रकारों के लिए सामान्यीकरण प्रदर्शन सत्यापन आवश्यक है।
◦
सामान्यीकरण प्रदर्शन और बहुमुखी प्रतिभा को सत्यापित करने के लिए अधिक व्यापक प्रयोगात्मक और तुलनात्मक अध्ययन की आवश्यकता है।
◦
उपयोग किए गए प्रशिक्षण डेटा का छोटा आकार वास्तविक दुनिया के बड़े पैमाने के अनुप्रयोग परिदृश्यों में सामान्यीकरण पर आगे अनुसंधान की आवश्यकता को दर्शाता है।