Cet article présente Block, un framework de planification distribuée qui exploite les informations contextuelles sur les requêtes entrantes pour optimiser l'équilibrage de charge et le provisionnement automatique entre les instances d'un framework de service de modèles de langage à grande échelle. Contrairement aux systèmes de service de modèles existants qui s'appuient sur des ordonnanceurs de tâches monolithiques et heuristiques, Block fonctionne comme un système de planification entièrement distribué, sans état et prédictif, offrant ainsi une faible surcharge, une fiabilité et une évolutivité optimales. Il exploite les propriétés déterministes et prévisibles de l'inférence LLM, telles que la configuration de l'hôte, la longueur des réponses et les performances matérielles, pour prendre des décisions de planification basées sur des métriques prédites avec précision. Les résultats d'évaluation sur un cluster de 12 GPU démontrent que Block surpasse significativement les ordonnanceurs heuristiques, augmentant la capacité de service jusqu'à 16,7 % et réduisant la latence P99 jusqu'à 49,5 %. Ces gains de performances sont constants sur une variété de modèles, de charges de travail et de configurations. Le code et les données sont open source.