본 논문은 대규모 언어 모델 추론을 가속화하는 투기적 디코딩이 다양한 요청을 가진 대규모 배치 서비스 환경에서는 고정된 투기 길이에 의존하는 것이 최적이 아니라는 점을 지적합니다. 따라서 본 논문은 사후 진단 신호의 새로운 종류를 조사하여 동적 적응을 위한 새로운 방향을 탐구합니다. 이를 위해, 두 가지 주요 구성 요소를 기반으로 하는 훈련이 필요 없는 프레임워크인 동적 투기적 디코딩 엔진(DSDE)을 제안합니다. 첫째, 생성의 지역적 안정성을 진단하는 Kullback-Leibler (KLD) 발산의 분산을 기반으로 하는 예측 신호이고, 둘째, 각 시퀀스 디코딩에서 지연 문제를 완화하기 위한 적응적 투기 길이 상한선입니다. 실험 결과는 KLD 기반 안정성 신호를 동적 적응에 사용할 수 있는 잠재력을 보여줍니다. 이러한 신호에 의해 안내되는 알고리즘은 최고의 기준과 경쟁력 있는 종단 간 지연 시간을 달성하고 다양한 작업량에서 우수한 강건성을 보여줍니다. 이러한 강건성은 특히 제안된 신호가 진단 유용성을 유지하는 어려운 낮은 수용률 체제에서 가치가 있습니다. 결론적으로, 이러한 발견은 사후 신호가 더 강력하고 지능적인 LLM 추론 시스템을 구축하는 데 중요한 구성 요소임을 검증하고, 동적 투기 길이 적응에 대한 미래 연구의 유망한 방향을 강조합니다.