दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

अतिप्रवाह रोकथाम दीर्घ-संदर्भ पुनरावर्ती एलएलएम को बढ़ाता है

Created by
  • Haebom

लेखक

असफ़ बेन-किश, इतामार ज़िमरमैन, एम. जेहानज़ेब मिर्ज़ा, लियोर वुल्फ, जेम्स ग्लास, लियोनिद कार्लिंस्की, राजा गिरीस

रूपरेखा

यह शोधपत्र दीर्घ-संदर्भ प्रसंस्करण दक्षता में सुधार हेतु आवर्तक उप-चतुर्भुज मॉडलों में नवीनतम प्रगति का अध्ययन करता है। हम प्रमुख दीर्घ-संदर्भ मॉडलों की जाँच करते हैं, और प्रदर्शन पर निश्चित-आकार की आवर्तक मेमोरी के प्रभाव पर ध्यान केंद्रित करते हैं। प्रायोगिक परिणाम दर्शाते हैं कि ये मॉडल दीर्घ-संदर्भ मॉडलों का कम उपयोग करते हैं, यहाँ तक कि दीर्घ-संदर्भों के साथ प्रशिक्षित होने पर भी। हम प्रदर्शित करते हैं कि एक खंड-आधारित अनुमान प्रक्रिया, जो इनपुट के केवल सबसे प्रासंगिक भागों की पहचान और प्रसंस्करण करती है, आवर्तक मेमोरी विफलताओं को कम करती है और कई दीर्घ-संदर्भ कार्यों के लिए प्रभावी है। लॉन्गबेंच पर, प्रस्तावित विधि Falcon3-Mamba-Inst-7B के प्रदर्शन में 14%, Falcon-Mamba-Inst-7B के प्रदर्शन में 28%, RecurrentGemma-IT-9B के प्रदर्शन में 50%, और RWKV6-Finch-7B के प्रदर्शन में 51% सुधार करती है। उल्लेखनीय रूप से, यह सरल दृष्टिकोण, समान आकार के ट्रांसफ़ॉर्मर्स के साथ प्रतिस्पर्धा करते हुए, मांग वाले लॉन्गबेंच v2 बेंचमार्क पर अत्याधुनिक परिणाम प्राप्त करता है। इसके अलावा, यह तथ्य कि एकल-खंड रणनीति बेहतर प्रदर्शन प्रदान करती है, यह प्रश्न उठाता है कि क्या पुनरावर्ती मॉडल वास्तव में लंबी दूरी की निर्भरता का उपयोग करते हैं।

Takeaways, Limitations

Takeaways: दर्शाता है कि खंड-आधारित अनुमान दीर्घ-संदर्भ मॉडलों के प्रदर्शन में उल्लेखनीय सुधार कर सकता है। आवर्तक मॉडलों में दीर्घ-संदर्भ प्रसंस्करण की दक्षता में सुधार के लिए एक नवीन विधि प्रस्तुत की गई है। यह LongBench v2 पर अत्याधुनिक प्रदर्शन प्राप्त करता है। यह शोधपत्र आवर्तक मॉडलों में दीर्घ-सीमा निर्भरताओं के उपयोग पर पुनर्विचार करने की आवश्यकता पर भी प्रकाश डालता है।
Limitations: प्रस्तावित विधि की व्यापकता निर्धारित करने के लिए और अधिक शोध की आवश्यकता है। विभिन्न दीर्घकालिक संदर्भ कार्यों और मॉडलों पर और प्रयोग आवश्यक हैं। आवर्तक मॉडलों की स्मृति दक्षता का और अधिक विश्लेषण आवश्यक है।
👍