[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

High-Throughput LLM inference on Heterogeneous Clusters

Created by
  • Haebom

作者

Yi Xiong, Jinqi Huang, Wenjie Huang, Xuebing Yu, Entong Li, Zhixiong Ning, Jinhua Zhou, Li Zeng, Xin Chen

概要

本論文では、異機種クラスターでの大規模言語モデル(LLM)推論サービスのための高スループット推論システムを提案します。このシステムは、まずリソース量と予想スループットをモデル化し、フルナビゲーション技術を使用して展開構成を最適化します。第二に、異なるインスタンスの異なる処理能力を十分に考慮する新しい要求スケジューリングメカニズムを提案する。実験の結果、提案されたスケジューラは、2つの異機種クラスターのスループットをそれぞれ122.5%と33.6%向上させることを示しました。主な課題としては、異機種間クラスターのさまざまなデプロイメント構成によるパフォーマンスの違いと、インスタンス固有の処理能力の違いによる効率的な要求のスケジューリングが困難であることが挙げられます。

Takeaways、Limitations

Takeaways:
異機種クラスタ環境におけるLLM推論サービスのスループットを大幅に向上させる効果的なシステムを提示する。
フルナビゲーション技術を使用したデプロイメント構成の最適化とインスタンス固有の処理能力を考慮したスケジューリングメカニズムは、実質的なパフォーマンス向上をもたらします。
提案されたシステムは、LLM推論サービスのコスト削減と作業処理速度の向上に貢献できます。
Limitations:
フルナビゲーション技術は、クラスタ規模が大きくなるにつれて計算コストが指数関数的に増加する可能性があります。
提案されたスケジューリングメカニズムのパフォーマンスは、インスタンスの処理能力を正確に予測することに依存します。予測誤差はパフォーマンスの低下を引き起こす可能性があります。
様々な種類の異機種クラスタ環境に対する一般化の可能性に関するさらなる研究が必要である。
👍