Dans cet article, nous proposons QuickSilver, un nouveau framework permettant de réduire la latence et la consommation énergétique de l'inférence des modèles de langage à grande échelle (LLM). Il vise à améliorer l'efficacité du processus d'inférence, qui représente plus de 90 % du coût de l'inférence LLM. Contrairement aux méthodes existantes telles que l'élagage, la quantification, la terminaison anticipée et le décodage prédictif, qui nécessitent un réentraînement ou une restructuration du modèle, QuickSilver permet une adaptabilité sémantique au moment de l'inférence sans modifier les pondérations ou l'architecture du modèle. QuickSilver intègre trois techniques : l'arrêt dynamique des jetons, le saut de cache KV et la fusion contextuelle des jetons, permettant ainsi une réduction du FLOP allant jusqu'à 39,6 % sur les modèles GPT-2 et Llama-2 tout en minimisant la dégradation de la perplexité (<=0,2).