दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

डेल्टा सक्रियण: फ़ाइनट्यून्ड बड़े भाषा मॉडल के लिए एक प्रतिनिधित्व

Created by
  • Haebom

लेखक

ज़िकिउ जू, अमीश सेठी, मयूर नाइक, सेर-नाम लिम

रूपरेखा

यह शोधपत्र शक्तिशाली ओपन-सोर्स एलएलएम के उद्भव पर प्रकाश डालता है, जिन्होंने विविध कार्यों और डोमेन के अनुकूल पोस्ट-ट्रेन्ड लार्ज-स्केल लैंग्वेज मॉडल (एलएलएम) का एक विशाल संग्रह सफलतापूर्वक तैयार किया है। हालाँकि, असंगत मेटाडेटा और असंरचित रिपॉजिटरी इन मॉडलों की खोज और समझ में बाधा डालते हैं। हम डेल्टा एक्टिवेशन का प्रस्ताव करते हैं, जो आधार मॉडल के सापेक्ष आंतरिक सक्रियण में परिवर्तन को मापकर फाइन-ट्यून्ड मॉडल को वेक्टर एम्बेडिंग के रूप में दर्शाने की एक विधि है। यह निरूपण डोमेन और कार्यों में प्रभावी क्लस्टरिंग की अनुमति देता है, जिससे मॉडल परिदृश्य की संरचना का पता चलता है। डेल्टा एक्टिवेशन वांछनीय गुण प्रदर्शित करते हैं, जिनमें फाइन-ट्यूनिंग सेटिंग्स के प्रति मजबूती और फाइन-ट्यूनिंग डेटासेट को मिश्रित करने पर योगात्मक गुण शामिल हैं। इसके अलावा, डेल्टा एक्टिवेशन फाइन-ट्यूनिंग के कई दौरों में कार्यों को एम्बेड कर सकता है, जिससे मॉडल चयन और विलय की अतिरिक्त क्षमता प्रदर्शित होती है। हमें उम्मीद है कि डेल्टा एक्टिवेशन सार्वजनिक रूप से उपलब्ध मॉडलों के पुन: उपयोग को सुगम बनाएगा। कोड https://github.com/OscarXZQ/delta_activations पर पाया जा सकता है ।

Takeaways, Limitations

Takeaways:
हम डेल्टा सक्रियण प्रस्तुत करते हैं, जो परिष्कृत एलएलएम का प्रभावी ढंग से प्रतिनिधित्व और तुलना करने के लिए एक नवीन विधि है।
मॉडल अन्वेषण और समझ को सुविधाजनक बनाने के लिए डोमेन और कार्य के आधार पर एलएलएम को क्लस्टर करें।
यह मॉडल चयन और विलय में संभावित अनुप्रयोगों का सुझाव देता है।
यह सार्वजनिक रूप से उपलब्ध एलएलएम के पुनः उपयोग को बढ़ावा दे सकता है।
Limitations:
यह निर्धारित करने के लिए आगे अनुसंधान की आवश्यकता है कि डेल्टा सक्रियण का प्रदर्शन विभिन्न एलएलएम आर्किटेक्चर और फाइन-ट्यूनिंग सेटिंग्स में कितनी अच्छी तरह से सामान्यीकृत होता है।
विशिष्ट कार्यों या डोमेन के लिए डेल्टा सक्रियण की व्याख्या और विश्वसनीयता निर्धारित करने के लिए आगे के विश्लेषण की आवश्यकता है।
प्रस्तावित विधि की मापनीयता और कम्प्यूटेशनल लागत का आगे मूल्यांकन आवश्यक है।
👍