本稿では、大規模言語モデルのサービスフレームワークにおけるインスタンス間の負荷分散と自動プロビジョニングを最適化するために、受信要求の状況情報を活用する分散スケジューリングフレームワークであるブロックを提示します。従来の単一でヒューリスティックなタスクスケジューラに依存するモデルサービングシステムとは異なり、Blockは完全に分散された状態の非保存で予測的なスケジューリングシステムとして機能し、オーバーヘッドが低く、安定して拡張可能です。ホスト構成、応答長、ハードウェアパフォーマンスなど、LLM推論の決定的で予測可能な特性を活用して、正確に予測されたメトリックに基づいてスケジューリングを決定します。 12個のGPUクラスターの評価の結果、Blockはヒューリスティックスケジューラよりもはるかに優れたパフォーマンスを示し、サービング容量を最大16.7%向上させ、P99遅延時間を最大49.5%短縮します。これらのパフォーマンスの向上は、さまざまなモデル、ワークロード、および構成で一貫して維持されます。コードとデータはオープンソースとして公開されます。