Dans cet article, nous proposons \acronym, un nouveau framework pour combler le fossé entre la complexité croissante des modèles de langage à grande échelle (LLM) et les capacités de calcul limitées des périphériques. Alors que les stratégies existantes telles que la quantification, l'élagage et l'inférence à distance entraînent une faible précision ou des coûts élevés, \acronym améliore l'efficacité de l'inférence en coordonnant les calculs entre des périphériques hétérogènes. Un périphérique léger génère plusieurs jetons candidats à l'aide de différents modèles, et un serveur partagé vérifie les jetons à l'aide d'un modèle plus précis. Le serveur regroupe les requêtes de vérification provenant de plusieurs périphériques pour améliorer l'efficacité et partage le même supermodèle afin de réduire l'utilisation de la mémoire. Les premières expériences utilisant Jetson Orin Nano, Raspberry Pi 4B/5 et des serveurs périphériques équipés de quatre GPU Nvidia A100 montrent une augmentation de 2,2 fois du débit système, une augmentation de 2,8 fois de la capacité système et une meilleure rentabilité, sans dégradation de la précision du modèle.