यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
डेल्टा सक्रियण: फ़ाइनट्यून्ड बड़े भाषा मॉडल के लिए एक प्रतिनिधित्व
Created by
Haebom
लेखक
ज़िकिउ जू, अमीश सेठी, मयूर नाइक, सेर-नाम लिम
रूपरेखा
यह शोधपत्र शक्तिशाली ओपन-सोर्स एलएलएम के उद्भव पर प्रकाश डालता है, जिन्होंने विविध कार्यों और डोमेन के अनुकूल पोस्ट-ट्रेन्ड लार्ज-स्केल लैंग्वेज मॉडल (एलएलएम) का एक विशाल संग्रह सफलतापूर्वक तैयार किया है। हालाँकि, असंगत मेटाडेटा और असंरचित रिपॉजिटरी इन मॉडलों की खोज और समझ में बाधा डालते हैं। हम डेल्टा एक्टिवेशन का प्रस्ताव करते हैं, जो आधार मॉडल के सापेक्ष आंतरिक सक्रियण में परिवर्तन को मापकर फाइन-ट्यून्ड मॉडल को वेक्टर एम्बेडिंग के रूप में दर्शाने की एक विधि है। यह निरूपण डोमेन और कार्यों में प्रभावी क्लस्टरिंग की अनुमति देता है, जिससे मॉडल परिदृश्य की संरचना का पता चलता है। डेल्टा एक्टिवेशन वांछनीय गुण प्रदर्शित करते हैं, जिनमें फाइन-ट्यूनिंग सेटिंग्स के प्रति मजबूती और फाइन-ट्यूनिंग डेटासेट को मिश्रित करने पर योगात्मक गुण शामिल हैं। इसके अलावा, डेल्टा एक्टिवेशन फाइन-ट्यूनिंग के कई दौरों में कार्यों को एम्बेड कर सकता है, जिससे मॉडल चयन और विलय की अतिरिक्त क्षमता प्रदर्शित होती है। हमें उम्मीद है कि डेल्टा एक्टिवेशन सार्वजनिक रूप से उपलब्ध मॉडलों के पुन: उपयोग को सुगम बनाएगा। कोड https://github.com/OscarXZQ/delta_activations पर पाया जा सकता है ।
हम डेल्टा सक्रियण प्रस्तुत करते हैं, जो परिष्कृत एलएलएम का प्रभावी ढंग से प्रतिनिधित्व और तुलना करने के लिए एक नवीन विधि है।
◦
मॉडल अन्वेषण और समझ को सुविधाजनक बनाने के लिए डोमेन और कार्य के आधार पर एलएलएम को क्लस्टर करें।
◦
यह मॉडल चयन और विलय में संभावित अनुप्रयोगों का सुझाव देता है।
◦
यह सार्वजनिक रूप से उपलब्ध एलएलएम के पुनः उपयोग को बढ़ावा दे सकता है।
•
Limitations:
◦
यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है कि डेल्टा सक्रियण का प्रदर्शन विभिन्न एलएलएम आर्किटेक्चर और फाइन-ट्यूनिंग सेटिंग्स में कितनी अच्छी तरह से सामान्यीकृत होता है।
◦
विशिष्ट कार्यों या डोमेन के लिए डेल्टा सक्रियण की व्याख्या और विश्वसनीयता निर्धारित करने के लिए आगे के विश्लेषण की आवश्यकता है।
◦
प्रस्तावित विधि की मापनीयता और कम्प्यूटेशनल लागत का आगे मूल्यांकन आवश्यक है।