Cet article souligne que le décodage spéculatif, qui accélère l'inférence de modèles de langage à grande échelle, repose sur une longueur de spéculation fixe, ce qui n'est pas optimal dans les environnements de services par lots à grande échelle avec des requêtes diverses. Par conséquent, cet article explore de nouvelles pistes pour l'adaptation dynamique en étudiant un nouveau type de signal de diagnostic post-test. À cette fin, nous proposons le moteur de décodage spéculatif dynamique (DSDE), un cadre sans apprentissage basé sur deux composants principaux : d'une part, un signal de prédiction basé sur la variance de la divergence de Kullback-Leibler (KLD), qui diagnostique la stabilité locale de la génération ; et d'autre part, une limite supérieure de longueur de spéculation adaptative pour atténuer les problèmes de retard à chaque décodage de séquence. Les résultats expérimentaux démontrent le potentiel de l'utilisation de signaux de stabilité basés sur KLD pour l'adaptation dynamique. Les algorithmes guidés par ces signaux atteignent une latence de bout en bout compétitive avec les meilleurs benchmarks de leur catégorie et présentent une excellente robustesse face à diverses charges de travail. Cette robustesse est particulièrement précieuse dans les régimes de faible capacité, où le maintien de l'utilité diagnostique est difficile pour le signal proposé. En conclusion, ces résultats valident le fait que les signaux postérieurs sont un élément crucial pour la construction de systèmes d’inférence LLM plus robustes et plus intelligents, et mettent en évidence des orientations prometteuses pour les recherches futures sur l’adaptation dynamique de la longueur de spéculation.