Este artículo destaca que la decodificación especulativa, que acelera la inferencia de modelos de lenguaje a gran escala, se basa en una longitud de especulación fija, lo cual no es óptimo en entornos de servicios por lotes a gran escala con diversas solicitudes. Por lo tanto, este artículo explora nuevas direcciones para la adaptación dinámica mediante la investigación de un nuevo tipo de señal de diagnóstico posterior a la prueba. Para ello, proponemos el Motor de Decodificación Especulativa Dinámica (DSDE), un marco sin entrenamiento basado en dos componentes principales: primero, una señal de predicción basada en la varianza de la divergencia de Kullback-Leibler (KLD), que diagnostica la estabilidad local de la generación; y segundo, un límite superior de la longitud de especulación adaptativa para mitigar los problemas de retardo en cada decodificación de secuencia. Los resultados experimentales demuestran el potencial del uso de señales de estabilidad basadas en KLD para la adaptación dinámica. Los algoritmos guiados por estas señales alcanzan una latencia de extremo a extremo que compite con los mejores benchmarks y presentan una excelente robustez en diversas cargas de trabajo. Esta robustez es particularmente valiosa en regímenes de baja capacidad, donde mantener la utilidad de diagnóstico es un desafío para la señal propuesta. En conclusión, estos hallazgos validan que las señales posteriores son un componente crucial para construir sistemas de inferencia LLM más robustos e inteligentes, y resaltan direcciones prometedoras para futuras investigaciones sobre la adaptación dinámica de la longitud de especulación.