Dans cet article, nous proposons SpecDec++, une technique de décodage spéculatif améliorée permettant de réduire la latence d'inférence des modèles de langage à grande échelle. Le décodage spéculatif existant présente des limites pour atteindre des performances optimales, car il utilise une heuristique simple pour déterminer le nombre de jetons candidats (K). Dans cet article, nous formulons le problème de la sélection de K comme processus de décision markovien et prouvons théoriquement que la politique optimale prend la forme d'une politique de seuil. Sur cette base, nous proposons SpecDec++, qui détermine dynamiquement K en ajoutant une tête de prédiction d'acceptation prédisant l'acceptabilité des jetons candidats. Appliqué aux modèles Llama-2-chat 7B et 70B, nous obtenons des accélérations de 2,04x, 2,26x et 2,23x sur les jeux de données Alpaca, GSM8K et HumanEval, respectivement.