यह शोधपत्र बड़े पैमाने के भाषा मॉडलों (LLM) के बहु-चक्र वार्तालापों में कुशल अवस्था पुनर्स्थापन की समस्या के समाधान हेतु Krul नामक एक प्रणाली का प्रस्ताव करता है। सभी वार्तालापों पर समान संपीड़न विधि लागू करने वाली मौजूदा KV कैश संपीड़न विधियों की सीमाओं को दूर करने के लिए, Krul वार्तालापों में ध्यान पैटर्न समानता को ध्यान में रखते हुए गतिशील रूप से एक संपीड़न रणनीति का चयन करता है। प्रमुख नवाचारों में पूर्वानुमानित संपीड़न रणनीति चयन, टोकन-वार विषमांगी ध्यान समानता अनुमान, और एक बबल-मुक्त पुनर्स्थापन अनुसूचक शामिल हैं। प्रायोगिक परिणाम दर्शाते हैं कि Krul, सर्वोत्तम प्रदर्शन करने वाली मौजूदा विधियों की तुलना में, समान उत्पादन गुणवत्ता बनाए रखते हुए, TTFT को क्रमशः 1.5x और 2.68x, और KV कैश संग्रहण को क्रमशः 1.33x और 2.35x कम करता है।