दैनिक अर्क्सिव

यह पेज दुनियाभर में प्रकाशित होने वाले आर्टिफिशियल इंटेलिजेंस संबंधित रिसर्च पेपर्स को संक्षिप्त रूप में प्रस्तुत करता है।
यहां Google Gemini का उपयोग करके पेपर्स का सारांश तैयार किया जाता है और यह पेज गैर-लाभकारी रूप से संचालित किया जाता है।
पेपर के कॉपीराइट लेखक और संबंधित संस्थान के पास हैं, और साझा करते समय बस स्रोत का उल्लेख करें।

क्रुल: गतिशील क्रॉस-लेयर केवी शेयरिंग के साथ बहु-टर्न वार्तालापों के लिए कुशल स्थिति बहाली

Created by
  • Haebom

लेखक

जुनयी वेन, जुनयुआन लियांग, ज़िकोंग होंग, वुहुई चेन, टिंग कै, ज़िबिन झेंग

रूपरेखा

यह शोधपत्र बड़े पैमाने के भाषा मॉडलों (LLM) के बहु-चक्र वार्तालापों में कुशल अवस्था पुनर्स्थापन की समस्या के समाधान हेतु Krul नामक एक प्रणाली का प्रस्ताव करता है। सभी वार्तालापों पर समान संपीड़न विधि लागू करने वाली मौजूदा KV कैश संपीड़न विधियों की सीमाओं को दूर करने के लिए, Krul वार्तालापों में ध्यान पैटर्न समानता को ध्यान में रखते हुए गतिशील रूप से एक संपीड़न रणनीति का चयन करता है। प्रमुख नवाचारों में पूर्वानुमानित संपीड़न रणनीति चयन, टोकन-वार विषमांगी ध्यान समानता अनुमान, और एक बबल-मुक्त पुनर्स्थापन अनुसूचक शामिल हैं। प्रायोगिक परिणाम दर्शाते हैं कि Krul, सर्वोत्तम प्रदर्शन करने वाली मौजूदा विधियों की तुलना में, समान उत्पादन गुणवत्ता बनाए रखते हुए, TTFT को क्रमशः 1.5x और 2.68x, और KV कैश संग्रहण को क्रमशः 1.33x और 2.35x कम करता है।

Takeaways, Limitations

Takeaways:
हम प्रदर्शित करते हैं कि संवादात्मक विशेषताओं के अनुरूप गतिशील केवी कैश संपीड़न रणनीति का उपयोग करके एलएलएम अनुमान दक्षता में काफी सुधार किया जा सकता है।
टीटीएफटी और केवी कैश भंडारण क्षमता को कम करके एलएलएम-आधारित अनुप्रयोगों के प्रदर्शन और मापनीयता में सुधार करने में योगदान देता है।
हम पूर्वानुमानित संपीड़न रणनीति चयन, टोकन-वार विषम ध्यान समानता अनुमान, और बुलबुला-मुक्त पुनर्स्थापना अनुसूचक जैसी नवीन तकनीकें प्रस्तुत करते हैं।
Limitations:
क्रुल के प्रदर्शन सुधार विशिष्ट डेटासेट और कार्यों के लिए प्रयोगात्मक परिणामों पर आधारित हैं, और अन्य वातावरणों में सामान्यीकरण के लिए और अधिक शोध की आवश्यकता है।
गतिशील संपीड़न रणनीति चयन से संबंधित कम्प्यूटेशनल ओवरहेड हो सकता है, जिसके लिए अनुकूलन की आवश्यकता हो सकती है।
प्रस्तावित विधि की जटिलता के कारण कार्यान्वयन और रखरखाव कठिन हो सकता है।
👍