Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Block: Balancing Load in LLM Serving with Context, Knowledge and Predictive Scheduling

Created by
  • Haebom

作者

Wei Da, Evangelia Kalyvianaki

概要

本稿では、大規模言語モデルのサービスフレームワークにおけるインスタンス間の負荷分散と自動プロビジョニングを最適化するために、受信要求の状況情報を活用する分散スケジューリングフレームワークであるブロックを提示します。従来の単一でヒューリスティックなタスクスケジューラに依存するモデルサービングシステムとは異なり、Blockは完全に分散された状態の非保存で予測的なスケジューリングシステムとして機能し、オーバーヘッドが低く、安定して拡張可能です。ホスト構成、応答長、ハードウェアパフォーマンスなど、LLM推論の決定的で予測可能な特性を活用して、正確に予測されたメトリックに基づいてスケジューリングを決定します。 12個のGPUクラスターの評価の結果、Blockはヒューリスティックスケジューラよりもはるかに優れたパフォーマンスを示し、サービング容量を最大16.7%向上させ、P99遅延時間を最大49.5%短縮します。これらのパフォーマンスの向上は、さまざまなモデル、ワークロード、および構成で一貫して維持されます。コードとデータはオープンソースとして公開されます。

Takeaways、Limitations

Takeaways:
大規模言語モデルサービスシステムのパフォーマンスを大幅に向上させるための新しい分散型スケジューリングフレームワークを紹介します。
負荷分散と自動プロビジョニングを効率的に実行し、サービング容量を増やし、遅延時間を短縮します。
LLM推論の特性を活用して、正確な予測ベースのスケジューリングを可能にします。
オープンソースとして公開され、他の研究者が活用できます。
Limitations:
現在12個のGPUクラスターでのみ評価されているため、より大きなクラスターではパフォーマンスがどのように変化するかをさらに検討する必要があります。
さまざまなモデルとワークロードの評価を行いましたが、すべてのタイプのLLMとワークロードの一般化を可能にする追加の検証が必要です。
実際の運用環境における長期的な安定性とスケーラビリティのさらなる評価が必要です。
👍