大規模言語モデル(LLM)の急速な採用とともに、LLM-アダプタが広く使用されており、大規模モデルを軽量化して特化する事例が増加している。単一のGPUで数百または数千のアダプタをサービスすると、要求の集約を介してスループットを向上させることができますが、GPUのメモリ制限を超えると要求の飢餓が発生する可能性があります。この研究は、この問題を解決するために、異機種アダプタとトラフィック特性を考慮して、要求飢餓を引き起こすことなくGPUスループットを最大化する同時および並列アダプタの組み合わせ構成を決定することに焦点を当てています。解析可能なモデルを活用するデータ駆動型MLアプローチを提案し、LLM-アダプタサービスシステムを再現できる最初のデジタルツインを導入し、効率的な学習データ生成を可能にする。 vLLMフレームワークとLoRAアダプタを使用した実験の結果、デジタルツインは実際の結果の5.1%以内でスループットを再現し、MLアプローチは異機種間、実際のワークロードで最大7.2%の誤差で同時および並列アダプタの最適数を予測しました。