यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है। यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है। पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।
स्पेकएक्सटेंड: लंबे अनुक्रमों के अनुमानित डिकोडिंग के लिए एक ड्रॉप-इन संवर्द्धन
Created by
Haebom
लेखक
जंगयौब चा, ह्युनजोंग किम, सुंगजून चो
रूपरेखा
यह पत्र SpecExtend का प्रस्ताव करता है, जो बड़े पैमाने के भाषा मॉडल (LLM) के अनुमान को तेज करने के लिए व्यापक रूप से इस्तेमाल की जाने वाली तकनीक, सट्टा डिकोडिंग के प्रदर्शन में गिरावट को संबोधित करता है। ध्यान तंत्र की बढ़ी हुई लागत और लंबे इनपुट के लिए ड्राफ्ट सटीकता में गिरावट के कारण सट्टा डिकोडिंग के प्रदर्शन में गिरावट को दूर करने के लिए, SpecExtend फ्लैशअटेंशन और हाइब्रिड ट्री अटेंशन जैसे कुशल ध्यान तंत्रों को ड्राफ्ट और लक्ष्य मॉडल में एकीकृत करता है। इसके अलावा, बिना किसी पुनर्प्रशिक्षण के लंबे इनपुट के लिए ड्राफ्ट सटीकता और गति में सुधार करने के लिए, हम क्रॉस-मॉडल रिट्रीवल का प्रस्ताव करते हैं, जो एक नई KV कैश निष्कासन रणनीति है जो लक्ष्य मॉडल के ध्यान स्कोर का उपयोग करके ड्राफ्ट मॉडल के लिए प्रासंगिक संदर्भ को गतिशील रूप से चुनती है। तीन लंबे-पाठ समझ डेटासेट पर व्यापक मूल्यांकन से पता चलता है कि SpecExtend 16K टोकन तक के इनपुट के लिए मानक ट्री-आधारित सट्टा डिकोडिंग को 2.22x तक तेज करता है। स्रोत कोड https://github.com/jycha98/SpecExtend पर उपलब्ध है ।