यह शोधपत्र मिश्रित कृत्रिम बुद्धिमत्ता प्रणालियों (जैसे, एजेंट प्रणालियाँ) पर केंद्रित है जहाँ विभिन्न उपयोगकर्ताओं, कार्यों और भूमिकाओं के लिए विशिष्ट कई बड़े पैमाने के भाषा मॉडल (LLM) एक साथ काम करते हैं। ऐसी प्रणालियों में, कई मॉडल अक्सर समान प्रासंगिक उपसर्गों वाले इनपुट संसाधित करते हैं। हालाँकि पिछले शोध एकल मॉडल के भीतर उपसर्ग KV कैश पुन: उपयोग पर केंद्रित रहे हैं, विभिन्न मॉडलों में उपसर्ग KV कैश पुन: उपयोग एक खुली चुनौती बना हुआ है। इस शोधपत्र में, हम DroidSpeak प्रस्तुत करते हैं, जो पहला वितरित LLM अनुमान प्रणाली है जो विभिन्न LLM पर अनुमान लगाने वाले वितरित नोड्स में KV कैश पुन: उपयोग को सक्षम बनाता है। समान आर्किटेक्चर वाले LLM के लिए, DroidSpeak अन्य LLM द्वारा उत्पन्न KV कैश की केवल कुछ परतों की पुनर्गणना करके और शेष का पुन: उपयोग करके गुणवत्ता में कमी के बिना अनुमान प्रदर्शन में सुधार करता है। परत-वार पुनर्गणनाओं और पुन: उपयोग किए गए KV कैश लोडिंग की सावधानीपूर्वक पाइपलाइनिंग के माध्यम से अतिरिक्त प्रदर्शन लाभ प्राप्त किए जाते हैं। विभिन्न डेटासेटों और मॉडल युग्मों पर प्रायोगिक परिणाम दर्शाते हैं कि DroidSpeak थ्रूपुट को 4x तक और इनफिल समय को लगभग 3.1x तक बेहतर बनाता है, तथा F1, Rouge-L, या कोड समानता स्कोर में गुणवत्ता की नगण्य हानि होती है।