Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

A Data-driven ML Approach for Maximizing Performance in LLM-Adapter Serving

Created by
  • Haebom

作者

Ferran Agullo、Joan Oliveras、Chen Wang、Alberto Gutierrez-Torre、Olivier Tardieu、Alaa Youssef、Jordi Torres、Josep Ll. Berral

概要

大規模言語モデル(LLM)の急速な採用とともに、LLM-アダプタが広く使用されており、大規模モデルを軽量化して特化する事例が増加している。単一のGPUで数百または数千のアダプタをサービスすると、要求の集約を介してスループットを向上させることができますが、GPUのメモリ制限を超えると要求の飢餓が発生する可能性があります。この研究は、この問題を解決するために、異機種アダプタとトラフィック特性を考慮して、要求飢餓を引き起こすことなくGPUスループットを最大化する同時および並列アダプタの組み合わせ構成を決定することに焦点を当てています。解析可能なモデルを活用するデータ駆動型MLアプローチを提案し、LLM-アダプタサービスシステムを再現できる最初のデジタルツインを導入し、効率的な学習データ生成を可能にする。 vLLMフレームワークとLoRAアダプタを使用した実験の結果、デジタルツインは実際の結果の5.1%以内でスループットを再現し、MLアプローチは異機種間、実際のワークロードで最大7.2%の誤差で同時および並列アダプタの最適数を予測しました。

Takeaways、Limitations

Takeaways:
LLM-アダプタサービスシステムの効率的な構成のためのデータ駆動型MLアプローチの提示。
LLM-アダプタサービスシステムを再現するデジタルツイン開発と性能検証
異機種間ワークロード環境における同時および並列アダプタの最適構成予測
VLLMフレームワークとLoRAアダプタを活用した実験結果を提示します。
Limitations:
特定のフレームワーク(VLLM)とアダプタタイプ(LoRA)の実験結果として、一般化の可能性に関するさらなる研究が必要です。
最大7.2%の誤差範囲内で最適な構成予測、精度向上可能性存在。
デジタルツインの再現性能(5.1%誤差)に対するさらなる改善余地。
👍